CN109977416A - 一种多层次自然语言反垃圾文本方法及系统 - Google Patents

一种多层次自然语言反垃圾文本方法及系统 Download PDF

Info

Publication number
CN109977416A
CN109977416A CN201910266548.3A CN201910266548A CN109977416A CN 109977416 A CN109977416 A CN 109977416A CN 201910266548 A CN201910266548 A CN 201910266548A CN 109977416 A CN109977416 A CN 109977416A
Authority
CN
China
Prior art keywords
text
sensitive word
identified
word
deformable body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910266548.3A
Other languages
English (en)
Other versions
CN109977416B (zh
Inventor
叶志豪
刘冶
桂进军
李宏浩
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou He Da Da Data Technology Co Ltd
National Sun Yat Sen University
Original Assignee
Guangzhou He Da Da Data Technology Co Ltd
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou He Da Da Data Technology Co Ltd, National Sun Yat Sen University filed Critical Guangzhou He Da Da Data Technology Co Ltd
Priority to CN201910266548.3A priority Critical patent/CN109977416B/zh
Publication of CN109977416A publication Critical patent/CN109977416A/zh
Application granted granted Critical
Publication of CN109977416B publication Critical patent/CN109977416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种多层次自然语言反垃圾文本方法及系统,通过获得待识别文本的敏感词识别结果、敏感词变形体识别结果,并结合对待识别文本进行文本分类得到其为垃圾文本的预判概率,基于对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行综合评判,得出所述待识别文本为垃圾文本的最终概率。本发明能高效地识别垃圾文本,能避免垃圾文本对互联网健康交流环境的不利影响,有较高的稳健性,可广泛地适用于社交、评论等互联网产品。

Description

一种多层次自然语言反垃圾文本方法及系统
技术领域
本发明涉及信息处理技术领域,特别是涉及一种多层次自然语言反垃圾文本方法及系统。
背景技术
随着互联网的快速发展,用户使用网站和应用程序的频率越来越高,在互联网上生成的文本内容也以爆炸式的速度涌现,例如直播弹幕、贴吧、评论、社交平台等互联网内容类产品,随着活跃用户量的增加,这些产品会带来大量的文本。然而在这些文本中还存在着不少垃圾文本,包含如广告类、色情类、辱骂类、暴力类、毒品类或其他不良信息等。这些垃圾文本包含形式各异的敏感词语,具有更新快、自由度高的特点,在网络上广泛传播,严重影响了互联网的健康发展。为营造和谐、纯净的互联网交流环境,避免垃圾文本带来的不利影响,因此如何快速识别海量文本中的垃圾文本尤为重要。
目前常用的垃圾文本识别的方法有基于关键词的人工规则识别方法,以及朴素贝叶斯、支持向量机、K-近邻算法等模型。由于垃圾文本中的敏感词具有更新快、自由度高的特点,这些方案只能在短时间内对垃圾文本起到一定的拦截作用,同时也只针对特定的应用场景,如只适用于垃圾邮件过滤、垃圾短信识别或垃圾网页识别的模型。在实际应用中,垃圾文本词会以各种变形方式被替换,导致现有方案对垃圾文本的识别效果不佳,已经不能满足当前需要。
发明内容
本发明的目的解决现有技术的瓶颈,提供一种多层次自然语言反垃圾文本方法及系统,由以下技术方案实现:
一种多层次自然语言反垃圾文本方法,包括以下步骤:
接收待识别文本;
基于原始敏感词库,对所述待识别文本进行原始敏感词的匹配,识别出所述待识别文本中的原始敏感词,输出敏感词识别结果;其中,所述原始敏感词库包括原始敏感词;
基于敏感词变形体库,对所述待识别文本进行敏感词变形体的匹配,并对匹配到的疑似词汇进行语义分析,验证所述疑似词汇是否属于敏感词,输出敏感词变形体识别结果;其中,所述敏感词变形体库根据所述原始敏感词库建立,所述敏感词变形体库包括所述原始敏感词对应的敏感词变形体;
对所述待识别文本进行文本分类,得出所述待识别文本为垃圾文本的预判概率;
对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算,得出所述待识别文本为垃圾文本的最终概率。
一种多层次自然语言反垃圾文本系统,包括:
接收模块,所述接收模块接收待识别文本;
原始敏感词库,所述原始敏感词库包括包括原始敏感词;
敏感词变形体库,所述敏感词变形体库包括所述原始敏感词对应的敏感词变形体;
基础识别模块,所述基础识别模块基于所述原始敏感词库,对所述待识别文本进行原始敏感词的匹配,识别出所述待识别文本中的原始敏感词,输出敏感词识别结果;
语义分析识别模块,所述语义分析识别模块基于所述敏感词变形体库,对所述待识别文本进行敏感词变形体的匹配,并对匹配到的疑似词汇进行语义分析,验证所述疑似词汇是否属于敏感词,输出敏感词变形体识别结果;
文本分类识别模块,所述文本分类识别模块对所述待识别文本进行文本分类,得出所述待识别文本为垃圾文本的预判概率;
多层次智能融合模块,所述多层次智能融合模块对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算,得出所述待识别文本为垃圾文本的最终概率。
相较于现有技术,本发明的一种多层次自然语言反垃圾文本方法及系统,通过获得待识别文本的敏感词识别结果、敏感词变形体识别结果,并结合对待识别文本进行文本分类得到其为垃圾文本的预判概率,基于对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行综合评判,得出所述待识别文本为垃圾文本的最终概率。本发明能高效地识别垃圾文本,能避免垃圾文本对互联网健康交流环境的不利影响,有较高的稳健性,可广泛地适用于社交、评论等互联网产品。
作为对上述多层次自然语言反垃圾文本方法的改进,所述敏感词变形体库的建立,包括以下步骤:
从所述原始敏感词库获取组成所述原始敏感词的关键字;
对现有汉字与所述关键字在字音上进行比较,获取现有汉字与所述关键字的字音相似度;
对现有汉字与所述关键字在字形上进行比较,获取现有汉字与所述关键字的字形相似度;
根据所述音形相似度、字形相似度筛选出所述关键字的相似字;
根据对应拆字的映射关系,获取所述关键字的拆字;
根据所述关键字、所述关键字的相似字、拆字及其组合,得到敏感词变形体,建立敏感词变形体库。
通过字音、字形上的比较获取所述关键字的相似字,并根据对应拆字的映射关系获取所述关键字的拆字,根据所述关键字、所述关键字的相似字、拆字及其组合,得到敏感词变形体,能充分获取敏感词变形体的各种变形情况,有效解决原始敏感词基础上的字词以谐音、拆字、形近字等变形的方式被替换时现有方案对垃圾文本的识别效果不佳的问题。
进一步的,对现有汉字与所述关键字在字形上进行比较,获取现有汉字与所述关键字的字形相似度,可包括以下步骤:
对现有汉字与所述关键字进行四角编码比较,获取现有汉字与所述关键字的四角编码相似度;
对现有汉字与所述关键字进行笔画数比较,获取现有汉字与所述关键字的笔画数相似度;
对现有汉字与所述关键字进行结构编码比较,获取现有汉字与所述关键字的结构编码相似度;
对所述四角编码相似度、笔画数相似度和结构编码相似度进行加权计算,获取现有汉字与所述关键字的字形相似度。
通过以上步骤,本案能够从汉字的四角编码、笔画数、结构编码等多个维度充分囊括所述关键字的形近字,为后续所述关键字的相似字的筛选提供更加详实的数据,丰富了所述敏感词变形体库中的敏感词变形体有效匹配样本。
在一个实施例中,对所述待识别文本进行文本分类,得出所述待识别文本为垃圾文本的预判概率,可包括以下步骤:
对所述待识别文本进行分词并向量化,形成待识别向量化信息;
利用结合卷积神经网络和长短期记忆网络并经过语料数据集训练的深度神经网络分类模型对所述待识别向量化信息进行处理,得出所述待识别文本为垃圾文本的预判概率。
通过以上步骤,将连续文本分词、向量化,易于后续以数学模型的方法进行分析;以结合卷积神经网络和长短期记忆网络并经过语料数据集训练的深度神经网络分类模型对向量化的待识别文本进行处理,能有效地对待识别文本进行文本分类识别。
进一步的,对所述深度神经网络分类模型进行语料数据集训练,可包括以下步骤:
建立语料数据集,获取垃圾文本作为原始语料文本;
读取所述原始语料文本中的正负样本数据,对所述正负样本数据进行数据清洗后构建词汇索引表;
对所述词汇索引表进行训练得到用于垃圾文本分类的嵌入型中文词向量。
采用大规模语料数据集训练得到嵌入型词向量方法,可以有效地减少词汇鸿沟现象和维度灾难,稳定提升文本识别的效果,提高后续判断所述待识别文本为垃圾文本概率的正确率。
进一步的,所述深度神经网络分类模型以正则化随机失活的方式防止过拟合。
随机失活是一个防止神经网络过拟合的有效方式,即按照一定的概率来“禁用”一些神经元,可以强迫神经元单独学习有用的特征,从而稳定提升文本识别的效果,提高后续判断所述待识别文本为垃圾文本概率的正确率。
在一个实施例中,对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算的方法为:
对所述待识别文本进行分词,获得所述待识别文本中总词数;
根据所述敏感词识别结果,获得原始敏感词识别数量,记所述原始敏感词识别数量与所述待识别文本中总词数之比为比率g1
根据所述敏感词变形体识别结果,获得敏感词变形体识别数量,记所述敏感词变形体识别数量与所述待识别文本中总词数之比为比率g2
按照以下方式结合所述待识别文本为垃圾文本的预判概率g3,对所述g1、g2、g3进行加权计算,得出所述待识别文本为垃圾文本的最终概率G:
G=γ1*g12*g23*g3
其中γi表示概率权重,i∈[1,2,3],且
通过以上步骤,本案对所述敏感词识别结果、敏感词变形体识别结果进行进一步转化,分别以比率的形式,结合所述预判概率进行以加权计算,精准得出所述待识别文本为垃圾文本的最终概率。
本发明还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述多层次自然语言反垃圾文本方法的步骤。
本发明还提供一种计算机设备,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述的多层次自然语言反垃圾文本方法的步骤。
附图说明
图1是本发明实施例1的多层次自然语言反垃圾文本方法的流程图;
图2是本发明实施例2所述敏感词变形体库的建立的流程图;
图3是本发明实施例2获取现有汉字与所述关键字的字形相似度的流程图;
图4是本发明实施例3对所述待识别文本进行文本分类的流程图;
图5是本发明实施例3所述深度神经网络分类模型逻辑结构图;
图6是本发明实施例3对所述深度神经网络分类模型进行语料数据集训练的的流程图;
图7是本发明实施例4对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算的流程图;
图8是本发明的多层次自然语言反垃圾文本系统示意图。
具体实施方式
实施例1
请参阅图1,一种多层次自然语言反垃圾文本方法,包括以下步骤:
S101,接收待识别文本;
S102,基于原始敏感词库,对所述待识别文本进行原始敏感词的匹配,识别出所述待识别文本中的原始敏感词,输出敏感词识别结果;其中,所述原始敏感词库包括原始敏感词;
S103,基于敏感词变形体库,对所述待识别文本进行敏感词变形体的匹配,并对匹配到的疑似词汇进行语义分析,验证所述疑似词汇是否属于敏感词,输出敏感词变形体识别结果;其中,所述敏感词变形体库根据所述原始敏感词库建立,所述敏感词变形体库包括所述原始敏感词对应的敏感词变形体;
S104,对所述待识别文本进行文本分类,得出所述待识别文本为垃圾文本的预判概率;
S105,对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算,得出所述待识别文本为垃圾文本的最终概率。
相较于现有技术,本发明的一种多层次自然语言反垃圾文本方法及系统,通过获得待识别文本的敏感词识别结果、敏感词变形体识别结果,并结合对待识别文本进行文本分类得到其为垃圾文本的预判概率,基于对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行综合评判,得出所述待识别文本为垃圾文本的最终概率。本发明能高效地识别垃圾文本,能避免垃圾文本对互联网健康交流环境的不利影响,有较高的稳健性,可广泛地适用于社交、评论等互联网产品。
其中,原始敏感词指未经字词替换、变换的敏感用语原型,可源于广告类、色情类、辱骂类等不良信息,例如“代购奶粉”、“外挂”、“垃圾”等。
敏感词变形体指在原始敏感词基础上在字词上存在替换、变换等变形的敏感用语其它表达方式,对应上例,如“代贝勾奶米分”、“外gua”或“wg”、“辣鸡”等。
对所述待识别文本进行敏感词的匹配识别前,可先过滤所述待识别文本中的特殊符号,如回车符号、#、*、tab符号、①(1)数字序号、→、空格符等,例如“开¥→%发*票”经预处理后得到“开发票”。本案优选通过正则表达式的形式对所述待识别文本中的特殊符号进行过滤。
根据实际需要,在对所述待识别文本进行敏感词的匹配识别前,还可先对所述待识别文本进行繁简转换以及火星文过滤、转换等,如“憂鬱烏龜”转换为“忧郁乌龟”,“謀嗰卟俓噫の瞬間”转换为“某个不经意的瞬间”。
本案优选采用AC算法对所述待识别文本进行原始敏感词的匹配或敏感词变形体的匹配。
对敏感词变形体库匹配到的疑似词汇进行语义分析,具体的:在进行敏感词变形体检测的时候,如果单纯依靠词库而不考虑上下文语境的话,可能将实际为正常使用的无关词语识别为敏感词变形体,如“辣鸡”可能指代“垃圾”,也可能仅仅是指代一种食物;因此有必要对疑似的敏感词变形体进行检验;本案对敏感词变形体库匹配到的疑似词汇进行语义分析,优选采用Word2vec词嵌入方法,使用词向量技术,即把词语转化为蕴含语义信息的词向量后通过对多个词向量计算平均值,得到上下文的语义重心,然后计算该词的词向量与上下文语义重心向量的相似度,有
其中,wi为一句文本中的第i个词语,为向量vi和vj的相似度模型,vw表示词对应的词向量,Ci为第i个词的上下文词语的集合,即表示词语wi的上下文语义重心的向量,Wk为上下文词语集Ci的第k个词语。因为正常文本的词语跟上下文文本语义接近,对应的词向量空间上也比较接近的,通过计算它与上下文语义重心的相似度,可以判断词语是否处于正常的语境中,从而识别出来所述疑似词汇是否为敏感词变形体。
在确认所述疑似词汇是敏感词变形体之后,可继续通过词库返回敏感词变形体对应的原始敏感词作为敏感词变形体识别结果中的一部分输出。一般而言,由同一个原始敏感词衍生出来的一批敏感词变形体只能对应所述对照进行衍生的原始敏感词;但在实际运用中,可能出现多个原型敏感词都能衍生出同样敏感词变形体的情况,即同一个敏感词变形体可能对应多个原型敏感词。当匹配到的敏感词变形体只能对应一个原型敏感词时,直接返回该原型敏感词即可。当匹配到的敏感词变形体能对应到多个原始敏感词作为候选词时,可通过对所述候选词进行打分排序得到最接近的原始敏感词;本案优选通过预训练的Word2vec词嵌入向量相似度方法来进行上述打分,通过比较候选词和上下文的相似度,所述候选词和上下文相似度越高则分数越高,分数最高的候选词即作为该匹配到的敏感词变形体对应的原始敏感词。
对所述待识别文本进行文本分类,具体的,可对所述待识别文本与现有的其它垃圾文本进行文本特征比对,由文本特征的相似度得出所述待识别文本为垃圾文本的预判概率。
本案允许运营人员结合实际需要对所述原始敏感词库或敏感词变形体库进行自定义编辑操作,针对指定字词进行强制排查或在匹配识别时进行忽略。
实施例2
实施例2为实施例1基础上的一种改进,主要针对具体如何建立所述敏感词变形体库,请参阅图2,所述敏感词变形体库的建立,包括以下步骤:
S201,从所述原始敏感词库获取组成所述原始敏感词的关键字;
S202,对现有汉字与所述关键字在字音上进行比较,获取现有汉字与所述关键字的字音相似度;
S203,对现有汉字与所述关键字在字形上进行比较,获取现有汉字与所述关键字的字形相似度;
S204,根据所述音形相似度、字形相似度筛选出所述关键字的相似字;
S205,根据对应拆字的映射关系,获取所述关键字的拆字;
S206,根据所述关键字、所述关键字的相似字、拆字及其组合,得到敏感词变形体,建立敏感词变形体库。
本实例中的以上步骤通过字音、字形上的比较获取所述关键字的相似字,并根据对应拆字的映射关系获取所述关键字的拆字,根据所述关键字、所述关键字的相似字、拆字及其组合,得到敏感词变形体,能充分获取敏感词变形体的各种变形情况,有效解决垃圾文本词以谐音、拆字、形近字等变形的方式被替换时现有方案对垃圾文本的识别效果不佳的问题。
具体的,在对现有汉字与所述关键字在字音上进行比较时,本案选用通过编码映射的方式,将汉字的韵母和声母部分分别映射到一个字符位;可将其中部分韵母采用相同的字符来替代,如有前后鼻音之分的“an”与“ang”、“in”与“ing”等都可以分别映射为同一个字符,在后期计算相似度时,即可弱化韵母位的差异。类似地,可将其中部分声母采用相同的字符来替代,如有翘舌音之分的“zh”与“z”、“sh”与“s”、“ch”与“c”等都可以分别映射为同一个字符。特别地,声母位和韵母位不仅仅可以按上述方案通过规则将近似字音的映射为相同的字符位,还可以是将近似字音在计算相似度时适当加分,从而提高对比获得的字音相似度。
在根据所述音形相似度、字形相似度筛选出所述关键字的相似字阶段,可设置筛选阈值,相似度超过阈值的字,就可以作为相似字,在实际运营中可通过测试集进行测试,得到最佳阈值。在根据所述关键字、所述关键字的相似字、拆字及其组合,得到敏感词变形体阶段,可对所述关键字、所述关键字的相似字、拆字进行笛卡尔积组合得到敏感词变形体。
另外,对用拼音或拼音缩写替换所述关键字的情况,可通过获取所述原始敏感词的拼音或拼音缩写或拼音与汉字的组合加入到所述敏感词变形体库中。
在一个实施例中,对现有汉字与所述关键字在字形上进行比较,获取现有汉字与所述关键字的字形相似度,请参照图3,可包括以下步骤:
S2031,对现有汉字与所述关键字进行四角编码比较,获取现有汉字与所述关键字的四角编码相似度;
S2032,对现有汉字与所述关键字进行笔画数比较,获取现有汉字与所述关键字的笔画数相似度;
S2033,对现有汉字与所述关键字进行结构编码比较,获取现有汉字与所述关键字的结构编码相似度;
S2034,对所述四角编码相似度、笔画数相似度和结构编码相似度进行加权计算,获取现有汉字与所述关键字的字形相似度。
通过以上步骤,本案能够从汉字的四角编码、笔画数、结构编码等多个维度充分囊括所述关键字的形近字,为后续所述关键字的相似字的筛选提供更加详实的数据,丰富了所述敏感词变形体库中的敏感词变形体有效匹配样本。
其中,所述四角编码为汉字通过一定规则转化得到为一组字符串序列,该字符串序列一般为一组长度不超过5位的阿拉伯数字;上述转化规则通过取汉字的左上角,右上角,左下角以及右下角四个角的笔形,能将汉字的字形特征保留下来。
所述结构编码指的是中文汉字结构如上下结构、半包围结构等对应的编码。
具体的,对于进行比较的两个汉字T1和T2,转化为四角编码后为别是t1和t2,则t1∩t2表示两者相同字符串的交集,则四角编码相似度p1
T1和T2的笔画数分别为t3和t4,则其笔画数相似度p2
T1和T2的结构编码分别为t5和t6,则其结构相似度p3
对上述三者进行加权即获得所述字形相似度Similarity(T1,T2)
Similarity(T1,T2)=δ1*p12*p23*p3
其中δi表示相似度权重,i∈[1,2,3],有
实施例3
实施例3为实施例1或2基础上的一种改进,主要针对具体如何对所述待识别文本进行文本分类,得出所述待识别文本为垃圾文本的预判概率,请参照图4,包括以下步骤:
S301,对所述待识别文本进行分词并向量化,形成待识别向量化信息;
S302,利用结合卷积神经网络和长短期记忆网络并经过语料数据集训练的深度神经网络分类模型对所述待识别向量化信息进行处理,得出所述待识别文本为垃圾文本的预判概率。
通过以上步骤,将连续文本分词、向量化,易于后续以数学模型的方法进行分析;以结合卷积神经网络和长短期记忆网络并经过语料数据集训练的深度神经网络分类模型对向量化的待识别文本进行处理,能有效地对待识别文本进行文本分类识别。
具体的,分词指中文分词,即将一个汉字序列或连续文本切分成一个个单独的词语,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,如“上海自来水来自海上”分词为“上海/自来水/来自/海上”;向量化,指将分词所得的词序列转化为词向量,词向量即用来将语言中的词进行数学化的一种方式。
卷积神经网络(Convolutional Neural Networks,CNN)对文本局部特征的提取有很好的效果,而在本案中,卷积神经网络可用于提取敏感词,使得分类的效果更好。长短期记忆网络(Long Short Term Memory,LSTM)是一种具有长期记忆和短期记忆的循环神经网络,每一个时间步的输出都由之前的记忆状态和当下的输入决定;在垃圾文本识别的场景中,LSTM能够对文本进行特征提取,得到一些敏感词或者消极词特征的向量表示。
请参阅图5,本案所述深度神经网络分类模型由一个卷积神经网络与一个长短期记忆网络拼接构成,包括LSTM层61、CNN部分的卷积层621、池化层622、全连接层624。其工作过程为:先在LSTM层61对所述待识别向量化信息提取核心特征并编码成上下文向量,在卷积层621中对所述上下文向量提取局部特征,然后在池化层622进行进一步压缩和主要特征提取,最后在预设了随机训练参数的全连接层624经过矩阵运算得到所述待识别文本为垃圾文本的预判概率。
在一个实施例中,对所述深度神经网络分类模型进行语料数据集训练,请参照图6,可包括以下步骤:
S401,建立语料数据集,获取垃圾文本作为原始语料文本;
S402,读取所述原始语料文本中的正负样本数据,对所述正负样本数据进行数据清洗后构建词汇索引表;
S403,对所述词汇索引表进行训练得到用于垃圾文本分类的嵌入型中文词向量。
采用大规模语料数据集训练得到嵌入型词向量方法,可以有效地减少词汇鸿沟现象和维度灾难,稳定提升文本识别的效果,提高后续判断所述待识别文本为垃圾文本概率的正确率。所述嵌入型中文词向量即可作为所述全连接层预设的随机训练参数。
进一步的,所述深度神经网络分类模型以正则化随机失活的方式防止过拟合。
随机失活是一个防止神经网络过拟合的有效方式,即按照一定的概率来“禁用”一些神经元,可以强迫神经元单独学习有用的特征,从而稳定提升文本识别的效果,提高后续判断所述待识别文本为垃圾文本概率的正确率。具体的,可在所述深度神经网络分类模型中的池化层622和全连接层624之间加入Dropout正则化层623;在训练阶段,当模型的随机失活率p=β时,表示在训练的过程中有随机概率为β是可能性,神经元是无效的。而在测试阶段,在模型中设置β=0,即所有神经元都被激活。
实施例4
实施例4为实施例1至3基础上的一种改进,主要针对具体如何对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算,请参照图7,包括以下步骤:
S501,对所述待识别文本进行分词,获得所述待识别文本中总词数;
S502,根据所述敏感词识别结果,获得原始敏感词识别数量,记所述原始敏感词识别数量与所述待识别文本中总词数之比为比率g1
S503,根据所述敏感词变形体识别结果,获得敏感词变形体识别数量,记所述敏感词变形体识别数量与所述待识别文本中总词数之比为比率g2
S504,按照以下方式结合所述待识别文本为垃圾文本的预判概率g3,对所述g1、g2、g3进行加权计算,得出所述待识别文本为垃圾文本的最终概率G:
G=γ1*g12*g23*g3
其中γi表示概率权重,i∈[1,2,3],且
通过以上步骤,本案对所述敏感词识别结果、敏感词变形体识别结果进行进一步转化,分别以比率的形式,结合所述预判概率进行以加权计算,精准得出所述待识别文本为垃圾文本的最终概率。
本发明提供的一种与实施例1至4任一项所述的多层次自然语言反垃圾文本方法对应的多层次自然语言反垃圾文本系统,请参照图8,包括:
接收模块1,所述接收模块1接收待识别文本;
原始敏感词库2,所述原始敏感词库2包括包括原始敏感词;
敏感词变形体库3,所述敏感词变形体库3包括所述原始敏感词对应的敏感词变形体;
基础识别模块4,所述基础识别模块4基于所述原始敏感词库2,对所述待识别文本进行原始敏感词的匹配,识别出所述待识别文本中的原始敏感词,输出敏感词识别结果;
语义分析识别模块5,所述语义分析识别模块5基于所述敏感词变形体库3,对所述待识别文本进行敏感词变形体的匹配,并对匹配到的疑似词汇进行语义分析,验证所述疑似词汇是否属于敏感词,输出敏感词变形体识别结果;
文本分类识别模块6,所述文本分类识别模块6对所述待识别文本进行文本分类,得出所述待识别文本为垃圾文本的预判概率;
多层次智能融合模块7,所述多层次智能融合模块7对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算,得出所述待识别文本为垃圾文本的最终概率。
本发明提供的一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现实施例1至4任一项所述的多层次自然语言反垃圾文本方法的步骤。
本发明提供的一种计算机设备,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现实施例1至4任一项所述的多层次自然语言反垃圾文本方法的步骤。
本发明不仅可以应用于垃圾文本的识别和过滤,包括短信、邮件、网站评论、视频和直播平台的弹幕等场景,也可应用于其他领域的分类识别,如基于一定主题词的情感识别、主题分类、情绪分析等,有重大的商业意义和商业价值。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包括这些改动和变形。

Claims (10)

1.一种多层次自然语言反垃圾文本方法,其特征在于,包括以下步骤:
接收待识别文本;
基于原始敏感词库,对所述待识别文本进行原始敏感词的匹配,识别出所述待识别文本中的原始敏感词,输出敏感词识别结果;其中,所述原始敏感词库包括原始敏感词;
基于敏感词变形体库,对所述待识别文本进行敏感词变形体的匹配,并对匹配到的疑似词汇进行语义分析,验证所述疑似词汇是否属于敏感词,输出敏感词变形体识别结果;其中,所述敏感词变形体库根据所述原始敏感词库建立,所述敏感词变形体库包括所述原始敏感词对应的敏感词变形体;
对所述待识别文本进行文本分类,得出所述待识别文本为垃圾文本的预判概率;
对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算,得出所述待识别文本为垃圾文本的最终概率。
2.根据权利要求1所述的多层次自然语言反垃圾文本方法,其特征在于,所述敏感词变形体库的建立,包括以下步骤:
从所述原始敏感词库获取组成所述原始敏感词的关键字;
对现有汉字与所述关键字在字音上进行比较,获取现有汉字与所述关键字的字音相似度;
对现有汉字与所述关键字在字形上进行比较,获取现有汉字与所述关键字的字形相似度;
根据所述音形相似度、字形相似度筛选出所述关键字的相似字;
根据对应拆字的映射关系,获取所述关键字的拆字;
根据所述关键字、所述关键字的相似字、拆字及其组合,得到敏感词变形体,建立敏感词变形体库。
3.根据权利要求2所述的多层次自然语言反垃圾文本方法,其特征在于,对现有汉字与所述关键字在字形上进行比较,获取现有汉字与所述关键字的字形相似度,包括以下步骤:
对现有汉字与所述关键字进行四角编码比较,获取现有汉字与所述关键字的四角编码相似度;
对现有汉字与所述关键字进行笔画数比较,获取现有汉字与所述关键字的笔画数相似度;
对现有汉字与所述关键字进行结构编码比较,获取现有汉字与所述关键字的结构编码相似度;
对所述四角编码相似度、笔画数相似度和结构编码相似度进行加权计算,获取现有汉字与所述关键字的字形相似度。
4.根据权利要求1所述的多层次自然语言反垃圾文本方法,其特征在于,对所述待识别文本进行文本分类,得出所述待识别文本为垃圾文本的预判概率,包括以下步骤:
对所述待识别文本进行分词并向量化,形成待识别向量化信息;
利用结合卷积神经网络和长短期记忆网络并经过语料数据集训练的深度神经网络分类模型对所述待识别向量化信息进行处理,得出所述待识别文本为垃圾文本的预判概率。
5.根据权利要求4所述的多层次自然语言反垃圾文本方法,其特征在于,对所述深度神经网络分类模型进行语料数据集训练,包括以下步骤:
建立语料数据集,获取垃圾文本作为原始语料文本;
读取所述原始语料文本中的正负样本数据,对所述正负样本数据进行数据清洗后构建词汇索引表;
对所述词汇索引表进行训练得到用于垃圾文本分类的嵌入型中文词向量。
6.根据权利要求4或5所述的多层次自然语言反垃圾文本方法,其特征在于,所述深度神经网络分类模型以正则化随机失活的方式防止过拟合。
7.根据权利要求1所述的多层次自然语言反垃圾文本方法,其特征在于,对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算的方法为:
对所述待识别文本进行分词,获得所述待识别文本中总词数;
根据所述敏感词识别结果,获得原始敏感词识别数量,记所述原始敏感词识别数量与所述待识别文本中总词数之比为比率g1
根据所述敏感词变形体识别结果,获得敏感词变形体识别数量,记所述敏感词变形体识别数量与所述待识别文本中总词数之比为比率g2
按照以下方式结合所述待识别文本为垃圾文本的预判概率g3,对所述g1、g2、g3进行加权计算,得出所述待识别文本为垃圾文本的最终概率G:
G=γ1*g12*g23*g3
其中γi表示概率权重,i∈[1,2,3],且:
8.一种多层次自然语言反垃圾文本系统,其特征在于,包括:
接收模块,所述接收模块接收待识别文本;
原始敏感词库,所述原始敏感词库包括包括原始敏感词;
敏感词变形体库,所述敏感词变形体库包括所述原始敏感词对应的敏感词变形体;
基础识别模块,所述基础识别模块基于所述原始敏感词库,对所述待识别文本进行原始敏感词的匹配,识别出所述待识别文本中的原始敏感词,输出敏感词识别结果;
语义分析识别模块,所述语义分析识别模块基于所述敏感词变形体库,对所述待识别文本进行敏感词变形体的匹配,并对匹配到的疑似词汇进行语义分析,验证所述疑似词汇是否属于敏感词,输出敏感词变形体识别结果;
文本分类识别模块,所述文本分类识别模块对所述待识别文本进行文本分类,得出所述待识别文本为垃圾文本的预判概率;
多层次智能融合模块,所述多层次智能融合模块对所述敏感词识别结果、敏感词变形体识别结果和预判概率进行加权计算,得出所述待识别文本为垃圾文本的最终概率。
9.一种储存介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多层次自然语言反垃圾文本方法的步骤。
10.一种计算机设备,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多层次自然语言反垃圾文本方法的步骤。
CN201910266548.3A 2019-04-03 2019-04-03 一种多层次自然语言反垃圾文本方法及系统 Active CN109977416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910266548.3A CN109977416B (zh) 2019-04-03 2019-04-03 一种多层次自然语言反垃圾文本方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910266548.3A CN109977416B (zh) 2019-04-03 2019-04-03 一种多层次自然语言反垃圾文本方法及系统

Publications (2)

Publication Number Publication Date
CN109977416A true CN109977416A (zh) 2019-07-05
CN109977416B CN109977416B (zh) 2023-07-25

Family

ID=67082699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910266548.3A Active CN109977416B (zh) 2019-04-03 2019-04-03 一种多层次自然语言反垃圾文本方法及系统

Country Status (1)

Country Link
CN (1) CN109977416B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472234A (zh) * 2019-07-19 2019-11-19 平安科技(深圳)有限公司 敏感文本识别方法、装置、介质和计算机设备
CN110569502A (zh) * 2019-07-31 2019-12-13 苏宁云计算有限公司 一种违禁广告语的识别方法、装置、计算机设备及存储介质
CN110674414A (zh) * 2019-09-20 2020-01-10 北京字节跳动网络技术有限公司 目标信息识别方法、装置、设备及存储介质
CN111079427A (zh) * 2019-12-20 2020-04-28 北京金睛云华科技有限公司 一种垃圾邮件识别方法及系统
CN111078827A (zh) * 2019-12-23 2020-04-28 上海米哈游天命科技有限公司 一种关键词判断方法、装置、设备和介质
CN111126373A (zh) * 2019-12-23 2020-05-08 北京中科神探科技有限公司 基于跨模态识别技术的互联网短视频判违装置及方法
CN111143884A (zh) * 2019-12-31 2020-05-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111274399A (zh) * 2020-01-20 2020-06-12 上海市大数据中心 一种基于自然语言预处理的公共数据分级方法
CN111460175A (zh) * 2020-04-08 2020-07-28 福州数据技术研究院有限公司 一种基于snomed-ct的医学名词词典构造与拓展方法
CN111831785A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 敏感词检测方法、装置、计算机设备及存储介质
CN112036187A (zh) * 2020-07-09 2020-12-04 上海极链网络科技有限公司 一种结合上下文语境的视频弹幕文本审核方法及系统
CN112036167A (zh) * 2020-08-25 2020-12-04 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN112287100A (zh) * 2019-07-12 2021-01-29 阿里巴巴集团控股有限公司 文本识别方法、拼写纠错方法及语音识别方法
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112560472A (zh) * 2019-09-26 2021-03-26 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
CN113095076A (zh) * 2021-04-20 2021-07-09 平安银行股份有限公司 敏感词识别方法、装置、电子设备及存储介质
CN113128241A (zh) * 2021-05-17 2021-07-16 口碑(上海)信息技术有限公司 文本识别方法、装置及设备
CN113590812A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN114385775A (zh) * 2021-12-29 2022-04-22 南京视察者智能科技有限公司 一种基于大数据的敏感词识别方法
CN114707499A (zh) * 2022-01-25 2022-07-05 中国电信股份有限公司 敏感词识别方法、装置、电子设备及存储介质
CN117056522A (zh) * 2023-10-11 2023-11-14 青岛网信信息科技有限公司 一种互联网言论优化处理方法、介质及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
US20170004128A1 (en) * 2015-07-01 2017-01-05 Institute for Sustainable Development Device and method for analyzing reputation for objects by data mining
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN108874776A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
US20170004128A1 (en) * 2015-07-01 2017-01-05 Institute for Sustainable Development Device and method for analyzing reputation for objects by data mining
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN108280130A (zh) * 2017-12-22 2018-07-13 中国电子科技集团公司第三十研究所 一种在文本大数据中发现敏感数据的方法
CN108874776A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种垃圾文本的识别方法及装置
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙汉博 等: "基于改进的Porter Stemmer词干提取与核方法的垃圾邮件过滤算法", 《计算机科学》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287100A (zh) * 2019-07-12 2021-01-29 阿里巴巴集团控股有限公司 文本识别方法、拼写纠错方法及语音识别方法
CN110472234A (zh) * 2019-07-19 2019-11-19 平安科技(深圳)有限公司 敏感文本识别方法、装置、介质和计算机设备
CN110569502A (zh) * 2019-07-31 2019-12-13 苏宁云计算有限公司 一种违禁广告语的识别方法、装置、计算机设备及存储介质
CN110674414A (zh) * 2019-09-20 2020-01-10 北京字节跳动网络技术有限公司 目标信息识别方法、装置、设备及存储介质
CN112560472B (zh) * 2019-09-26 2023-07-11 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
CN112560472A (zh) * 2019-09-26 2021-03-26 腾讯科技(深圳)有限公司 一种识别敏感信息的方法及装置
CN111079427A (zh) * 2019-12-20 2020-04-28 北京金睛云华科技有限公司 一种垃圾邮件识别方法及系统
CN111126373A (zh) * 2019-12-23 2020-05-08 北京中科神探科技有限公司 基于跨模态识别技术的互联网短视频判违装置及方法
CN111078827A (zh) * 2019-12-23 2020-04-28 上海米哈游天命科技有限公司 一种关键词判断方法、装置、设备和介质
CN111143884A (zh) * 2019-12-31 2020-05-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111143884B (zh) * 2019-12-31 2022-07-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111274399A (zh) * 2020-01-20 2020-06-12 上海市大数据中心 一种基于自然语言预处理的公共数据分级方法
CN111460175A (zh) * 2020-04-08 2020-07-28 福州数据技术研究院有限公司 一种基于snomed-ct的医学名词词典构造与拓展方法
CN113590812A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN113590812B (zh) * 2020-04-30 2024-03-05 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN112036187A (zh) * 2020-07-09 2020-12-04 上海极链网络科技有限公司 一种结合上下文语境的视频弹幕文本审核方法及系统
CN111831785A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 敏感词检测方法、装置、计算机设备及存储介质
CN112036167A (zh) * 2020-08-25 2020-12-04 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN112036167B (zh) * 2020-08-25 2023-11-28 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN113095076A (zh) * 2021-04-20 2021-07-09 平安银行股份有限公司 敏感词识别方法、装置、电子设备及存储介质
CN113095076B (zh) * 2021-04-20 2023-08-22 平安银行股份有限公司 敏感词识别方法、装置、电子设备及存储介质
CN113128241A (zh) * 2021-05-17 2021-07-16 口碑(上海)信息技术有限公司 文本识别方法、装置及设备
CN114385775A (zh) * 2021-12-29 2022-04-22 南京视察者智能科技有限公司 一种基于大数据的敏感词识别方法
CN114707499A (zh) * 2022-01-25 2022-07-05 中国电信股份有限公司 敏感词识别方法、装置、电子设备及存储介质
CN114707499B (zh) * 2022-01-25 2023-10-24 中国电信股份有限公司 敏感词识别方法、装置、电子设备及存储介质
CN117056522A (zh) * 2023-10-11 2023-11-14 青岛网信信息科技有限公司 一种互联网言论优化处理方法、介质及系统
CN117056522B (zh) * 2023-10-11 2024-03-15 青岛网信信息科技有限公司 一种互联网言论优化处理方法、介质及系统

Also Published As

Publication number Publication date
CN109977416B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN109977416A (zh) 一种多层次自然语言反垃圾文本方法及系统
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
Yang et al. Rits: Real-time interactive text steganography based on automatic dialogue model
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN112685541B (zh) 一种基于多任务学习的社交媒体谣言检测方法
CN108256968A (zh) 一种电商平台商品专家评论生成方法
CN111859964A (zh) 一种语句中命名实体的识别方法及装置
CN114528827A (zh) 一种面向文本的对抗样本生成方法、系统、设备及终端
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN112732872A (zh) 面向生物医学文本的基于主题注意机制的多标签分类方法
Fang et al. A method of automatic text summarisation based on long short-term memory
Anjum et al. Exploring humor in natural language processing: a comprehensive review of JOKER tasks at CLEF symposium 2023
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN110287396A (zh) 文本匹配方法及装置
CN113204971B (zh) 一种基于深度学习的场景自适应Attention多意图识别方法
Li et al. Multilingual toxic text classification model based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant