CN113627169A - 一种敏感文本识别方法、系统、电子设备及存储介质 - Google Patents

一种敏感文本识别方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN113627169A
CN113627169A CN202110968175.1A CN202110968175A CN113627169A CN 113627169 A CN113627169 A CN 113627169A CN 202110968175 A CN202110968175 A CN 202110968175A CN 113627169 A CN113627169 A CN 113627169A
Authority
CN
China
Prior art keywords
text
sensitive
sensitive text
dfa
expanding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110968175.1A
Other languages
English (en)
Inventor
方依
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202110968175.1A priority Critical patent/CN113627169A/zh
Publication of CN113627169A publication Critical patent/CN113627169A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种敏感文本识别方法、系统、电子设备及存储介质,其方法技术方案包括多叉树文本扩展步骤,对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展;DFA文本扩展步骤,通过DFA技术对含有无效字符的所述敏感文本进行扩展;文本分类扩展步骤,收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展;融合文本识别步骤,对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。本申请解决了现有敏感文本识别方法误杀率高、效果不理想的问题。

Description

一种敏感文本识别方法、系统、电子设备及存储介质
技术领域
本发明属于文本识别技术领域,尤其涉及一种敏感文本识别方法、系统、电子设备及存储介质。
背景技术
在网络世界中,存在着各类辱骂、黄色等敏感文本,这类文本会给其他用户带来非常不好的体验,而有的人为了逃避识别,将文本稍加改变,以逃过识别。因此,敏感的识别对净化网络环境有重要意义。
发明内容
本申请实施例提供了一种敏感文本识别方法、系统、电子设备及存储介质,以至少解决现有敏感文本识别方法误杀率高、效果不理想的问题。
第一方面,本申请实施例提供了一种敏感文本识别方法,包括:多叉树文本扩展步骤,对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展;DFA文本扩展步骤,通过DFA技术对含有无效字符的所述敏感文本进行扩展;文本分类扩展步骤,收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展;融合文本识别步骤,对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。
优选的,所述文本分类扩展步骤进一步包括:通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。
优选的,所述文本分类扩展步骤进一步包括:对所述负样本进行随机切分,将得到的切分块与所述正样本通过二分类进行文本分类。
优选的,所述融合文本识别步骤进一步包括:若所述敏感文本的字数小于一阈值,则通过所述多叉树和所述DFA进行识别,反之则通过所述文本分类算法进行识别。
第二方面,本申请实施例提供了一种敏感文本识别系统,适用于上述一种敏感文本识别方法,包括:多叉树文本扩展模块,对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展;DFA文本扩展模块,通过DFA技术对含有无效字符的所述敏感文本进行扩展;文本分类扩展模块,收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展;融合文本识别模块,对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。
在其中一些实施例中,所述文本分类扩展模块进一步包括:通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。
在其中一些实施例中,所述文本分类扩展模块进一步包括:对所述负样本进行随机切分,将得到的切分块与所述正样本通过二分类进行文本分类。
在其中一些实施例中,所述融合文本识别模块进一步包括:若所述敏感文本的字数小于一阈值,则通过所述多叉树和所述DFA进行识别,反之则通过所述文本分类算法进行识别。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的一种敏感文本识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的一种敏感文本识别方法。
本申请可应用于数据能力技术领域。相比于相关技术,本申请实施例提供的一种敏感文本识别方法,通过融合多种识别方法,保证有较高的准确率和召回率,满足需求。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明的敏感文本识别方法流程图;
图2为本发明的敏感文本识别系统的框架图;
图3为本发明的电子设备的框架图;
以上图中:
1、多叉树文本扩展模块;2、DFA文本扩展模块;3、文本分类扩展模块;4、融合文本识别模块;60、总线;61、处理器;62、存储器;63、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在网络环境中,不可控人的行为,有的人可能会发布辱骂、反动、色情、暴恐等信息,这些文本污染网络环境。这类的文本需要被识别出来、并剔除。而有的人为了逃避识别,将文本稍加改变,逃过“抓捕”。
例如:
将“我在吃饭”
改变成:
“我zc饭”。
上述是将文字的首拼音作为变体,还有偏旁变体的,例如:
“我zc饣反”。
这种变体在网络中随处可见,还有在文字中增加一些无效字符,以防止被识别出来的,例如:
“我在&&&吃&$&*-||-饭”。
以及上述变体的结合等。
以下,结合附图详细介绍本发明的实施例:
图1为本发明的敏感文本识别方法流程图,请参见图1,本发明敏感文本识别方法包括如下步骤:
S1:对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展。
在具体实施中,对敏感词汇中的每个字做如下处理
拆字,比如将“饭”拆成“饣反”
拆拼音的首部,比如将“饭”拆成“f”
拆拼音的全拼,比如将“饭”拆成“fan”
拆拼音的全拼带声调,比如将“饭”拆成“fàn”
在具体实施中,每个字都有5种可能,对于长度为N的词,其变体有5N种可能,本申请实施例用多叉树的方式解决这个构建+遍历的问题。
在具体实施中,首先递归构建一多叉树,本申请提供一伪代码对构建树算法进行说明:
输入:根节点(记为root),扩展后数组(二维数组,每一维度是每个词的不同的扩展结果,记为lists),深度(初始传入为0,记为depth)
输出:一颗多叉树
如果深度等于原文长度则退出;返回空
for lst in lists:
nodes.append(tree(lst[depth]))
root.set_children(nodes)
for child in root.children:
create_tree(child,lists,depth+1)
在具体实施中,再遍历该多叉树,采用深度优先遍历的方式,如果是叶子,就找到一条正确的路径。
(1)访问顶点v;visited[v]=1;//算法执行前visited[n]=0
(2)w=顶点v的第一个邻接点;
(3)while(w存在)
if(w未被访问)
从顶点w出发递归执行该算法;
If w是叶子:
找到一条路径。
w=顶点v的下一个邻接点
S2:通过DFA技术对含有无效字符的所述敏感文本进行扩展。
在具体实施中,DFA主要思想是在敏感词中做扩展,其思想是对无效字符空跳,从而解决字符中穿插无效字符的问题,通过确定有穷自动机(DFA)识别带有无效字符的敏感文本。
S3:收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展。
可选的,通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。
可选的,对所述负样本进行随机切分,将得到的切分块与所述正样本通过二分类进行文本分类。
在具体实施中,在进行分类之前,首先需要正样本(辱骂黄色样本)以及负样本(正常样本)。负样本的数量有很多,而正样本数目很少,搜集正样本数据是分类的第一步。
网络中有自动化工具可以生成相关的脏话文本,而负样本的数目过多,必然会导致样本不均衡的问题,为了解决此类问题,本申请提供一具体实施例,本具体实施例中采用如下扩展方式对其中的脏话样本进行扩展:
Figure BDA0003224686040000061
Figure BDA0003224686040000071
在具体实施中,通过上述扩展规则可以将敏感文本中的文案通过上述方案随机的变化,会生成更多的敏感文本数据,一定程度上缓解样本不足的问题。
在具体实施中,生成后的正样本数量还是远小于负样本数量,本申请实施例采用bagging方式解决问题,即将负样本进行随机切分,其中的切分块与所有的正样本训练一个二分类算法,再采用投票选举的方式得到结果。
可选的,可采用textcnn,textrnn,textrcnn,fasttext等算法。
S4:对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。
可选的,若所述敏感文本的字数小于一阈值,则通过所述多叉树和所述DFA进行识别,反之则通过所述文本分类算法进行识别。
在具体实施中,多叉树扩展和DFA不能解决语境不同的问题,而文本分类算法采用CNN或RNN等方式去提取其高阶特征,其高阶特征中可能包含这些语义,在一定程度上可以解决这类问题。
而文本分类算法的问题是由于数据本身的原因(正样本大部分都比较长,很少有短文本),对短文本的效果较差。而在短文本中多叉树扩展和DFA表现却不错。
所以,在具体实施中,可对文本字数小于5的文本,采用多叉树扩展和DFA进行识别。如果识别出敏感文本,则返回;若未识别到,或文字数目大于等于5,则使用文本分类算法进行识别。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种敏感文本识别系统,适用于上述的一种敏感文本识别方法。如以下所使用的,术语“单元”、“模块”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件、或者软件和硬件的组合的实现也是可能并被构想的。
图2为根据本发明的敏感文本识别系统的框架图,请参见图2,包括:
多叉树文本扩展模块1:对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展。
在具体实施中,对敏感词汇中的每个字做如下处理
拆字,比如将“饭”拆成“饣反”
拆拼音的首部,比如将“饭”拆成“f”
拆拼音的全拼,比如将“饭”拆成“fan”
拆拼音的全拼带声调,比如将“饭”拆成“fàn”
在具体实施中,每个字都有5种可能,对于长度为N的词,其变体有5N种可能,本申请实施例用多叉树的方式解决这个构建+遍历的问题。
在具体实施中,首先递归构建一多叉树,本申请提供一伪代码对构建树算法进行说明:
输入:根节点(记为root),扩展后数组(二维数组,每一维度是每个词的不同的扩展结果,记为lists),深度(初始传入为0,记为depth)
输出:一颗多叉树
如果深度等于原文长度则退出;返回空
for lst in lists:
nodes.append(tree(lst[depth]))
root.set_children(nodes)
for child in root.children:
create_tree(child,lists,depth+1)
在具体实施中,再遍历该多叉树,采用深度优先遍历的方式,如果是叶子,就找到一条正确的路径。
(1)访问顶点v;visited[v]=1;//算法执行前visited[n]=0
(2)w=顶点v的第一个邻接点;
(3)while(w存在)
if(w未被访问)
从顶点w出发递归执行该算法;
If w是叶子:
找到一条路径。
w=顶点v的下一个邻接点
DFA文本扩展模块2:通过DFA技术对含有无效字符的所述敏感文本进行扩展。
在具体实施中,DFA主要思想是在敏感词中做扩展,其思想是对无效字符空跳,从而解决字符中穿插无效字符的问题,通过确定有穷自动机(DFA)识别带有无效字符的敏感文本。
文本分类扩展模块3:收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展。
可选的,通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。
可选的,对所述负样本进行随机切分,将得到的切分块与所述正样本通过二分类进行文本分类。
在具体实施中,在进行分类之前,首先需要正样本(辱骂黄色样本)以及负样本(正常样本)。负样本的数量有很多,而正样本数目很少,搜集正样本数据是分类的第一步。
网络中有自动化工具可以生成相关的脏话文本,而负样本的数目过多,必然会导致样本不均衡的问题,为了解决此类问题采用如下扩展方式对其中的脏话样本进行扩展:
Figure BDA0003224686040000101
Figure BDA0003224686040000111
在具体实施中,通过上述扩展规则可以将敏感文本中的文案通过上述方案随机的变化,会生成更多的敏感文本数据,一定程度上缓解样本不足的问题。
在具体实施中,生成后的正样本数量还是远小于负样本数量,本申请实施例采用bagging方式解决问题,即将负样本进行随机切分,其中的切分块与所有的正样本训练一个二分类算法,再采用投票选举的方式得到结果。
可选的,可采用textcnn,textrnn,textrcnn,fasttext等算法。
融合文本识别模块4:对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。
可选的,若所述敏感文本的字数小于一阈值,则通过所述多叉树和所述DFA进行识别,反之则通过所述文本分类算法进行识别。
在具体实施中,多叉树扩展和DFA不能解决语境不同的问题,而文本分类算法采用CNN或RNN等方式去提取其高阶特征,其高阶特征中可能包含这些语义,在一定程度上可以解决这类问题。
而文本分类算法的问题是由于数据本身的原因(正样本大部分都比较长,很少有短文本),对短文本的效果较差。而在短文本中多叉树扩展和DFA表现却不错。
所以,在具体实施中,可对文本字数小于5的文本,采用多叉树扩展和DFA进行识别。如果识别出敏感文本,则返回;若未识别到,或文字数目大于等于5,则使用文本分类算法进行识别。
另外,结合图1描述的一种敏感文本识别方法可以由电子设备来实现。图3为本发明的电子设备的框架图。
电子设备可以包括处理器61以及存储有计算机程序指令的存储器62。
具体地,上述处理器61可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器62可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器62可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器62可在数据处理装置的内部或外部。在特定实施例中,存储器62是非易失性(Non-Volatile)存储器。在特定实施例中,存储器62包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器61所执行的可能的计算机程序指令。
处理器61通过读取并执行存储器62中存储的计算机程序指令,以实现上述实施例中的任意一种敏感文本识别方法。
在其中一些实施例中,电子设备还可包括通信接口63和总线60。其中,如图3所示,处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。
通信端口63可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线60包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线60可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的一种敏感文本识别方法。
另外,结合上述实施例中的一种敏感文本识别方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种敏感文本识别方法。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ReadOnly Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种敏感文本识别方法,其特征在于,包括:
多叉树文本扩展步骤,对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展;
DFA文本扩展步骤,通过DFA技术对含有无效字符的所述敏感文本进行扩展;
文本分类扩展步骤,收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展;
融合文本识别步骤,对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。
2.根据权利要求1所述的敏感文本识别方法,其特征在于,所述文本分类扩展步骤进一步包括:通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。
3.根据权利要求2所述的敏感文本识别方法,其特征在于,所述文本分类扩展步骤进一步包括:对所述负样本进行随机切分,将得到的切分块与所述正样本通过二分类进行文本分类。
4.根据权利要求1所述的敏感文本识别方法,其特征在于,所述融合文本识别步骤进一步包括:若所述敏感文本的字数小于一阈值,则通过所述多叉树和所述DFA进行识别,反之则通过所述文本分类算法进行识别。
5.一种敏感文本识别系统,其特征在于,包括:
多叉树文本扩展模块,对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展;
DFA文本扩展模块,通过DFA技术对含有无效字符的所述敏感文本进行扩展;
文本分类扩展模块,收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展;
融合文本识别模块,对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。
6.根据权利要求5所述的敏感文本识别系统,其特征在于,所述文本分类扩展模块进一步包括:通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。
7.根据权利要求6所述的敏感文本识别系统,其特征在于,所述文本分类扩展模块进一步包括:对所述负样本进行随机切分,将得到的切分块与所述正样本通过二分类进行文本分类。
8.根据权利要求5所述的敏感文本识别系统,其特征在于,所述融合文本识别模块进一步包括:若所述敏感文本的字数小于一阈值,则通过所述多叉树和所述DFA进行识别,反之则通过所述文本分类算法进行识别。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的敏感文本识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的敏感文本识别方法。
CN202110968175.1A 2021-08-23 2021-08-23 一种敏感文本识别方法、系统、电子设备及存储介质 Pending CN113627169A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110968175.1A CN113627169A (zh) 2021-08-23 2021-08-23 一种敏感文本识别方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110968175.1A CN113627169A (zh) 2021-08-23 2021-08-23 一种敏感文本识别方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113627169A true CN113627169A (zh) 2021-11-09

Family

ID=78387339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110968175.1A Pending CN113627169A (zh) 2021-08-23 2021-08-23 一种敏感文本识别方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113627169A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961768A (zh) * 2021-12-22 2022-01-21 金蝶软件(中国)有限公司 敏感词检测方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN103793747A (zh) * 2014-01-29 2014-05-14 中国人民解放军61660部队 网络内容安全管理中一种敏感信息模板构建方法
CN109087648A (zh) * 2018-08-21 2018-12-25 平安科技(深圳)有限公司 柜台语音监控方法、装置、计算机设备及存储介质
CN111859093A (zh) * 2020-07-30 2020-10-30 中国联合网络通信集团有限公司 敏感词处理方法、装置及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN103793747A (zh) * 2014-01-29 2014-05-14 中国人民解放军61660部队 网络内容安全管理中一种敏感信息模板构建方法
CN109087648A (zh) * 2018-08-21 2018-12-25 平安科技(深圳)有限公司 柜台语音监控方法、装置、计算机设备及存储介质
CN111859093A (zh) * 2020-07-30 2020-10-30 中国联合网络通信集团有限公司 敏感词处理方法、装置及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛朋强等: "面向维吾尔文的敏感信息过滤方法研究", 《计算机工程与应用》, vol. 54, no. 5, 31 December 2018 (2018-12-31), pages 236 - 241 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961768A (zh) * 2021-12-22 2022-01-21 金蝶软件(中国)有限公司 敏感词检测方法、装置、计算机设备和存储介质
CN113961768B (zh) * 2021-12-22 2022-05-13 金蝶软件(中国)有限公司 敏感词检测方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN107463666B (zh) 一种基于文本内容的敏感词过滤方法
CN107784110B (zh) 一种索引建立方法及装置
CN109614499B (zh) 一种词典生成方法、新词发现方法、装置及电子设备
US20170289082A1 (en) Method and device for identifying spam mail
CN112966713B (zh) 基于深度学习的dga域名检测方法、装置及计算机设备
CN111968625A (zh) 融合文本信息的敏感音频识别模型训练方法及识别方法
CN107948730B (zh) 基于图片生成视频的方法、装置、设备及存储介质
CN113627169A (zh) 一种敏感文本识别方法、系统、电子设备及存储介质
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
KR101842274B1 (ko) 문장 추출 방법 및 시스템
CN111159354A (zh) 一种敏感资讯检测方法、装置、设备及系统
CN113919905A (zh) 一种风险用户识别方法及系统、设备和存储介质
JP2005259143A (ja) 言語データのログの圧縮
CN111414621B (zh) 一种恶意网页文件识别方法及装置
CN111539206B (zh) 一种确定敏感信息的方法、装置、设备及存储介质
CN110909247A (zh) 文本信息的推送方法、电子设备及计算机存储介质
JP2021039488A (ja) 辞書作成装置及び辞書作成方法
KR101748069B1 (ko) 동적 그래프 기반의 그래프 요약을 수행하는 장치 및 방법
CN115883111A (zh) 一种钓鱼网站识别方法、装置、电子设备及存储介质
CN114297449A (zh) 内容查找方法、装置、电子设备及计算机可读介质及产品
CN113139383A (zh) 一种文档排序方法、系统、电子设备及存储介质
CN112528021A (zh) 一种模型训练方法、模型训练装置及智能设备
CN112035622A (zh) 一种自然语言处理的集成平台及方法
CN108304540B (zh) 一种文本数据识别方法、装置及相关设备
CN111159996A (zh) 一种基于改进的文本指纹算法的短文本集合相似度比较方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination