CN106909534A - 一种判别文本安全性的方法及装置 - Google Patents

一种判别文本安全性的方法及装置 Download PDF

Info

Publication number
CN106909534A
CN106909534A CN201510977485.4A CN201510977485A CN106909534A CN 106909534 A CN106909534 A CN 106909534A CN 201510977485 A CN201510977485 A CN 201510977485A CN 106909534 A CN106909534 A CN 106909534A
Authority
CN
China
Prior art keywords
text
result
judgment
determination
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510977485.4A
Other languages
English (en)
Inventor
安宁宇
粟栗
张峰
孙洋
邵妍
李元锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201510977485.4A priority Critical patent/CN106909534A/zh
Publication of CN106909534A publication Critical patent/CN106909534A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种判别文本安全性的方法及装置,其中,方法包括:获取待判别文本,并提取所述待判别文本的文本字符;根据不同判断条件的判定参数,对文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,不同判断条件的判定参数为根据预先存储的已判定文本获得的;根据所获得的不同判断条件的判定结果,确定待判别文本的最终判定结果。本发明提高了文本判别的准确率和效率,降低了人工的判定工作量。

Description

一种判别文本安全性的方法及装置
技术领域
本发明涉及通信互联网技术领域,尤其是涉及一种判别文本安全性的方法及装置。
背景技术
随着通信互联网的迅速发展,信息传播的速度越来越快,人们每天通过网络获得的信息也日渐增多。但由于信息监管的缺失,各种良莠不齐的内容例如广告、诈骗、反动等也随之传播。此外,该些内容传播的方式也是多种多样,例如,接收短信时会收到垃圾信息,浏览论坛会遇到不愿看到的广告,在游戏中聊天会碰到刷屏、污言秽语等。由此可以看出,种种违规信息的传播有愈演愈烈的趋势,该些内容不但对信息的使用者造成很大困扰,例如用户需要花费额外的时间去处理这些信息,而且一些违法信息也威胁着个人、公司、社会和国家方方面面的安全。因此,抑制违规信息的传播在通信互联网领域就成了一件迫在眉睫的大事。
现有的违规信息过滤方式主要基于三种模式:第一种是人工发现直接封堵,例如在论坛中版主去监管版面。第二种是用户举报后人工封堵,这种模式出现在手机短信、微信和QQ等即时通讯工具中。第三种是基于自动发现违规信息的模式去过滤,有些也配合人工封堵进一步操作,例如很多社会性网络服务SNS社交网站采用这种模式。
其中,在自动发现违规信息的模式中,主要采用以下两种技术:
第一种为敏感词过滤,敏感词过滤基本方法为,通过对文本与敏感词库中的敏感词进行匹配来查看文本中是否涉嫌违规信息。如果经过匹配发现文本中出现敏感词,则该文本被判定违规或者疑似违规。在一些方法中,也可能采取敏感词组合和筛选的方法进行过滤。
第二种为相似文本匹配,相似文本匹配基本方法为,对待判定文本与已判定违规文本进行比较,若二者一致或者相似则对待判定文本进行判定。其中,指纹哈希算法、文本特征向量算法等均属于此类。
以上两种技术虽然实现了自动发现违规信息的目的,但是在准确率和效率方面也存在比较明显的确定。
针对敏感词过滤来说,如果敏感词配置得当,基于敏感词过滤的方法能发现绝大多数违规信息,覆盖率比较高。但是根据实验,相比较敏感词命中的违规信息,敏感词会命中更多的正常信息。例如“发票”这样的词语,除了违规广告使用之外,也是生活工作中常见的词汇。因此单纯使用敏感词过滤,会造成很多误判,可能影响正常的信息交流或加大下一步人工审核的负担。
针对相似文本匹配来说,通过对已有判定结果的文本内容进行学习,对未判定的文本内容进行判定。通常来讲这种方法具有比较高的准确率,但也存在两个问题,一是随着违规信息的不断变化,学习文本的数量会不断增长,随着学习库的越加庞大,文本匹配的效率会越来越慢。二是一些文本会出现少量语序变化,从而影响最终的匹配结果。例如“外卖专享,到家美食会5折”和“到家美食会5折登录订购吧”,这两条文本会被认为是两个不同内容,而不能被匹配系统做出有效判定。
综上所述,现有自动发现违规信息的模式对文本不能做出有效判断,并且增加了人工审核的负担,存在准确率及效率较低的问题。
发明内容
为了能够对文本做出有效判断,降低人工的判定工作量,提高文本判别的准确率和效率,本发明提供了一种判别文本安全性的方法及装置。
为了实现上述目的,本发明提供了一种判别文本安全性的方法,包括:
获取待判别文本,并提取所述待判别文本的文本字符;
根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,所述不同判断条件的判定参数为根据预先存储的已判定文本获得的;
根据所获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果。
可选的,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,不同判断条件至少包括:字符内容分析、文本长度分析、黑名单匹配和敏感词匹配。
可选的,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果之前,所述方法还包括:对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数。
可选的,所述对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数,包括:根据所述已判定文本确定第一判断条件对应的参考参数,其中,所述第一判断条件为字符内容分析、文本长度分析、黑名单匹配和敏感词匹配中的任意一个;根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率,其中,判定结果包括第一确定结果和不确定结果,第一确定结果包括正常文本结果和违规文本结果;将所述参考参数对应的占比率与一占比率阈值进行比较,将所述参考参数对应的误判率与一误判率阈值进行比较,将占比率大于一占比率阈值且误判率小于一误判率阈值对应的参考参数作为所述第一判断条件对应的判定参数。
可选的,在根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率中,根据公式计算判定结果为第一确定结果的文本的占比率,其中,R表示所述占比率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,MS表示多个所述已判定文本的总数量;根据公式计算判定结果为第一确定结果的文本的误判率,其中,F表示所述误判率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,JW表示所述已判定文本中第一确定结果与所述已判定文本的已判定结果不相符的文本的数量。
可选的,在所述根据所述已判定文本确定第一判断条件对应的参考参数中,所述字符内容分析对应的参考参数为中文字符,所述文本长度分析对应的参考参数为文本长度值、所述黑名单匹配对应的参考参数为黑名单库以及所述敏感词匹配对应的参考参数为敏感词库。
可选的,当第一判断条件为黑名单匹配时,所述根据所述已判定文本确定第一判断条件对应的参考参数包括:从所述已判定文本的违规文本结果对应的违规文本中提取不同的字符串,并将所述多个不同的字符串组成黑名单匹配对应的参考参数黑名单库,其中,所述字符串至少包括数字和统一资源定位符URL。
可选的,当第一判断条件为敏感词匹配时,所述根据所述已判定文本确定第一判断条件对应的参考参数包括:将一预设敏感词库中的敏感词与所述已判定文本中的违规文本结果对应的违规文本进行匹配,并计算所述敏感词的匹配度;根据计算得到的敏感词的匹配度,将匹配度小于匹配度阈值的敏感词从所述预设敏感词库中清除,并将所述预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库。
可选的,在将匹配度小于一匹配度阈值的敏感词从所述预设敏感词库中清除,并将所述预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库之后,所述方法还包括:从所述敏感词库中筛选出匹配度值最高的敏感词以及从所述已判定文本中筛选出与所述匹配度值最高的敏感词匹配的文本;将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度;根据计算得到的剩余敏感词的匹配度,从所述剩余敏感词中筛选出匹配度等级最高的敏感词以及从所述剩余文本中筛选出与所述匹配度等级最高的敏感词匹配的文本,其中,所述匹配度的等级随匹配度值的增大而增加;重复进入将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度的步骤,直至所述剩余敏感词的匹配度为零;将筛选出的敏感词组成敏感词匹配对应的判定参数敏感词库。
可选的,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据字符内容分析的判定参数,对所述文本字符从字符内容分析进行安全性判断,获得字符内容分析的判定结果,包括:根据字符内容分析的判定参数中文字符,判断所述文本字符中是否包含有中文字符;若所述文本字符中不包含有中文字符,则所述字符内容分析的判定结果为正常文本结果;若所述文本字符中包含有中文字符,则所述字符内容分析的判定结果为不确定结果。
可选的,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据文本长度分析的判定参数,对所述文本字符从文本长度分析进行安全性判断,获得文本长度分析的判定结果,包括:根据文本长度分析的判定参数长度阈值,判断所述文本字符的文本长度是否小于等于所述长度阈值;若所述文本长度小于等于所述长度阈值,则所述文本长度分析的判定结果为正常文本结果;若所述文本长度大于所述长度阈值,则所述文本长度分析的判定结果为不确定结果。
可选的,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得判定结果中,根据黑名单匹配的判定参数,对所述文本字符从黑名单匹配进行安全性判断,获得黑名单匹配的判定结果,包括:根据黑名单匹配的判定参数黑名单库,判断所述文本字符中是否包含有与所述黑名单库中的字符串相匹配的字符串,其中,所述字符串至少包括数字和URL;若所述文本字符中包含有与所述黑名单库中的字符串相匹配的字符串,则所述黑名单匹配的判定结果为违规文本结果;若所述文本字符中不包含有与所述黑名单库中的字符串相匹配的字符串,则所述黑名单匹配的判定结果为不确定文本结果。
可选的,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据敏感词匹配的判定参数,对所述文本字符从敏感词匹配进行安全性判断,获得敏感词匹配的判定结果,包括:根据敏感词匹配的判定参数敏感词库,判断所述文本字符中是否包含有与所述敏感词库中的敏感词相匹配的分词;若所述文本字符中不包含有与所述敏感词库中的敏感词相匹配的分词,则所述敏感词匹配的判定结果为正常文本结果;若所述文本字符中包含有与所述敏感词库中的敏感词相匹配的分词,则所述敏感词匹配的判定结果为疑似违规文本结果。
可选的,根据所获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果,包括:根据所获得的不同判断条件的判定结果,确定判定结果的类型,其中,所述判定结果的类型包括第二确定结果和不确定结果,所述第二确定结果包括正常文本结果、违规文本结果和疑似违规文本结果;根据预先设置的不同判断条件的判断优先级,按照由高到低的优先级顺序选取优先级高的判断条件对应的所述第二确定结果作为最终判定结果。
可选的,当所述最终判定结果为疑似违规文本结果时,所述方法还包括:将经过人工审核并已有人工审核判定结果的疑似违规文本结果对应的疑似文本更新至所述预先存储的已判定文本中。
可选的,在所述根据预先设置的不同判断条件的判断优先级,按照由高到低的优先级顺序选取优先级高的判断条件对应的所述第二确定结果作为最终判定结果中,当不同判断条件包括字符内容分析、文本长度分析、黑名单匹配和敏感词匹配时,不同判断条件的由高到低的优先级序列为字符内容分析、文本长度分析、黑名单匹配、敏感词匹配;或者不同判断条件的由高到低的优先级序列为文本长度分析、字符内容分析、黑名单匹配、敏感词匹配。
依据本发明的另一个方面,本发明还提供了一种判别文本安全性的装置,所述装置包括:
获取模块,用于获取待判别文本,并提取所述待判别文本的文本字符;
判断模块,用于根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,所述不同判断条件的判定参数为根据预先存储的已判定文本获得的;
确定模块,用于根据分析模块获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果。
可选的,所述判断模块中的不同判断条件至少包括:字符内容分析、文本长度分析、黑名单匹配和敏感词匹配。
可选的,所述装置还包括分析模块,用于对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数。
可选的,所述分析模块包括:确定单元,用于根据所述已判定文本确定第一判断条件对应的参考参数,其中,所述第一判断条件为字符内容分析、文本长度分析、黑名单匹配和敏感词匹配中的任意一个;计算单元,用于根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率,其中,判定结果包括第一确定结果和不确定结果,第一确定结果包括正常文本结果和违规文本结果;选取单元,用于将所述参考参数对应的占比率与一占比率阈值进行比较,将所述参考参数对应的误判率与一误判率阈值进行比较,将占比率大于一占比率阈值且误判率小于一误判率阈值对应的参考参数作为所述第一判断条件对应的判定参数。
可选的,所述计算单元还用于,根据公式计算判定结果为第一确定结果的文本的占比率,其中,R表示所述占比率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,MS表示多个所述已判定文本的总数量;根据公式计算判定结果为第一确定结果的文本的误判率,其中,F表示所述误判率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,JW表示所述已判定文本中第一确定结果与所述已判定文本的已判定结果不相符的文本的数量。
可选的,在所述确定单元中,所述字符内容分析对应的参考参数为中文字符,所述文本长度分析对应的参考参数为文本长度值、所述黑名单匹配对应的参考参数为黑名单库以及所述敏感词匹配对应的参考参数为敏感词库。
可选的,当第一判断条件为黑名单匹配时,所述确定单元还用于,从所述已判定文本的违规文本结果对应的违规文本中提取不同的字符串,并将所述多个不同的字符串组成黑名单匹配对应的参考参数黑名单库,其中,所述字符串至少包括数字和统一资源定位符URL。
可选的,当第一判断条件为敏感词匹配时,所述确定单元还用于,将一预设敏感词库中的敏感词与所述已判定文本中的违规文本结果对应的违规文本进行匹配,并计算所述敏感词的匹配度;根据计算得到的敏感词的匹配度,将匹配度小于匹配度阈值的敏感词从所述预设敏感词库中清除,并将所述预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库。
可选的,所述装置还包括筛选模块,用于从所述敏感词库中筛选出匹配度值最高的敏感词以及从所述已判定文本中筛选出与所述匹配度值最高的敏感词匹配的文本;将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度;根据计算得到的剩余敏感词的匹配度,从所述剩余敏感词中筛选出匹配度等级最高的敏感词以及从所述剩余文本中筛选出与所述匹配度等级最高的敏感词匹配的文本,其中,所述匹配度的等级随匹配度值的增大而增加;重复进入将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度的步骤,直至所述剩余敏感词的匹配度为零;将筛选出的敏感词组成敏感词匹配对应的判定参数敏感词库。
可选的,所述分析模块还用于,根据字符内容分析的判定参数中文字符,判断所述文本字符中是否包含有中文字符;若所述文本字符中不包含有中文字符,则所述字符内容分析的判定结果为正常文本结果;若所述文本字符中包含有中文字符,则所述字符内容分析的判定结果为不确定结果。
可选的,所述分析模块还用于,根据文本长度分析的判定参数长度阈值,判断所述文本字符的文本长度是否小于等于所述长度阈值;若所述文本长度小于等于所述长度阈值,则所述文本长度分析的判定结果为正常文本结果;若所述文本长度大于所述长度阈值,则所述文本长度分析的判定结果为不确定结果。
可选的,所述分析模块还用于,根据黑名单匹配的判定参数黑名单库,判断所述文本字符中是否包含有与所述黑名单库中的字符串相匹配的字符串,其中,所述字符串至少包括数字和URL;若所述文本字符中包含有与所述黑名单库中的字符串相匹配的字符串,则所述黑名单匹配的判定结果为违规文本结果;若所述文本字符中不包含有与所述黑名单库中的字符串相匹配的字符串,则所述黑名单匹配的判定结果为不确定文本结果。
可选的,所述分析模块还用于,根据敏感词匹配的判定参数敏感词库,判断所述文本字符中是否包含有与所述敏感词库中的敏感词相匹配的分词;若所述文本字符中不包含有与所述敏感词库中的敏感词相匹配的分词,则所述敏感词匹配的判定结果为正常文本结果;若所述文本字符中包含有与所述敏感词库中的敏感词相匹配的分词,则所述敏感词匹配的判定结果为疑似违规文本结果。
可选的,所述确定模块还用于,根据所获得的不同判断条件的判定结果,确定判定结果的类型,其中,所述判定结果的类型包括第二确定结果和不确定结果,所述第二确定结果包括正常文本结果、违规文本结果和疑似违规文本结果;根据预先设置的不同判断条件的判断优先级,按照由高到低的优先级顺序选取优先级高的判断条件对应的所述第二确定结果作为最终判定结果。
可选的,所述装置还包括更新模块,用于将经过人工审核并已有人工审核判定结果的疑似违规文本结果对应的疑似文本更新至所述预先存储的已判定文本中。
可选的,所述确定模块还用于,当不同判断条件包括字符内容分析、文本长度分析、黑名单匹配和敏感词匹配时,不同判断条件的由高到低的优先级序列为字符内容分析、文本长度分析、黑名单匹配、敏感词匹配;或者不同判断条件的由高到低的优先级序列为文本长度分析、字符内容分析、黑名单匹配、敏感词匹配。
本发明的有益效果是:
本发明提供的判别文本安全性的方法,根据不同判断条件的判定参数,对从待判别文本中提取的文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,不同判断条件的判定参数为根据预先存储的已判定文本获得的;然后再根据所获得的不同判断条件的判定结果,确定待判别文本的最终判定结果。本发明从多个维度的判断条件对待判别文本进行安全性判断,解决了现有自动发现违规信息的模式对文本不能做出有效判断且增加人工审核负担的问题,提高了文本判别的准确率和效率,降低了人工的判定工作量;此外,本发明利用预先存储的已判定文本作为判定参数的来源,给判定过程提供判定参数,增加了依据判定参数得到的判定结果的准确率,同时优化了判定样本的覆盖率,使得依据判定参数能够尽可能多得给出更加准确的判定结果,进一步降低了人工的判定工作量,减小了人工审核的负担。
附图说明
图1表示本发明的第一实施例中判别文本安全性的方法的步骤流程图;
图2表示本发明的第二实施例中判别文本安全性的方法的步骤流程图;
图3表示本发明的第二实施例中步骤201的分步骤的流程图;
图4表示本发明的第三实施例中长度阈值训练中多个文本长度值对应的误判率和占比率的曲线图;
图5表示本发明的第三实施例中敏感词匹配度训练中依据多个敏感词匹配度筛选到的敏感词库的占比率和误判率的曲线图;
图6表示本发明的第四实施例中判别文本安全性的装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
第一实施例:
如图1所示,为本发明的第一实施例中判别文本安全性的方法的步骤流程图,该方法包括如下步骤:
步骤101,获取待判别文本,并提取待判别文本的文本字符。
在本步骤中,在获取到待判定文本之后,可以先提取待判别文本的文本字符。具体的,在提取文本字符的过程中,可以尽可能多的提取文字信息,并删除待判别文本中出现的一些特殊符号和标点符号。其中,“¥”、“■”等均属于特殊符号。
步骤102,根据不同判断条件的判定参数,对文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果。
在本步骤中,具体的,不同判断条件至少可以包括字符内容分析、文本长度分析、黑名单匹配和敏感词匹配四个判断条件。此外,不同判断条件的判定参数为根据预先存储的已判定文本获得的。
下面分别对字符内容分析、文本长度分析、黑名单匹配和敏感词匹配四个判断条件的来源进行具体说明。
具体的,可以将文本从安全性的角度分为违规文本和正常文本。通常违规文本与正常文本相比具有较为明显的特征。
其一,违规文本中大多都含有中文字符,因为纯英文或其他语言的字符只能用于特定人群,而不适用于没有明确目的的对象的传播,因此可以将字符内容分析作为安全性判断的一个判断条件。
其二,违规文本需要表达出一定信息量的内容,因此违规文本必然会有一定的长度,例如下面的两个文本:
从上面的两个文本可以看出,序号为1的文本为正常文本,文本长度较短;序号为2的文本为一个歌厅发布的广告违规文本,需要较长的内容才能够完全展现。因此,可以将文本长度分析作为安全性判断的一个判断条件。
其三,违规文本通常需要违规文本的接收者根据违规文本中的一些联系方式或者其他信息进行互动,因此违规文本中通常含有电话号码、银行卡号和网址等字符串。该些字符串由于是从违规文本中提取的,因此可以将该些字符串作为一个黑名单库,并查看待判别文本中是否含有黑名单库中的字符串,从而判断待判别文本。从上可以得出,可以将黑名单匹配作为安全性判断的一个判断条件。
其四,违规文本中会较为频繁的使用一些敏感词汇,例如“楼盘”、“赌城”、“中奖”等等,并且每条违规文本中也通常会至少出现一个敏感词,而很大一部分正常文本不会使用敏感词,只是普通用语,例如下面的两个文本:
从上面的两个文本可以看出,序号为1的文本为正常文本,文本只是普通用语,词语“下雨”、“带伞”都非敏感词;序号为2的文本为一个赌场发布的广告违规文本,其中,“返水”、“提现”都是潜在的敏感词。因此可以将敏感词匹配作为安全性判断的一个判断条件。
此外,不同判断条件的判定结果可以包括第二确定结果和不确定结果,其中,第二确定结果包括正常文本结果、违规文本结果和疑似违规文本结果。在此需要说明的是,不确定结果对应的待判别文本并未被筛选出来,即判定结果为不确定结果的待判别文本还需要从其他判断条件进行安全性判断。
步骤103,根据所获得的不同判断条件的判定结果,确定待判别文本的最终判定结果。
在本步骤中,具体的,在根据所获得的不同判断条件的判定结果,确定待判别文本的最终判定结果中,可以对不同判断条件的判定结果进行综合判断,确定待判别短文本的最终判定结果。同样的,也可以对不同判断条件进行优先级排序,选取优选级最高的判断条件对应的第二确定结果为最终判定结果,若优先级最高的判断条件未能得出第二确定结果,则选取优先级次高的判断条件对应的第二确定结果为最终判定结果,依此类推,直至得出最终判定结果为止。具体的,最终判定结果可以为正常文本结果、违规文本结果和疑似违规文本结果中的一种。
本实施例从多个维度对待判别文本进行安全性判断,增加了待判别文本安全性判断的判断条件的维度,解决了现有自动发现违规信息的模式对文本不能做出有效判断且增加人工审核负担的问题,提高了文本判别的准确率和效率,降低了人工的判定工作量。此外,本实施例利用预先存储的已判定文本作为判定参数的来源,给判定过程提供判定参数,增加了依据判定参数得到的判定结果的准确率,同时优化了判定样本的覆盖率,使得依据判定参数能够尽可能多得给出更加准确的判定结果,进一步降低了人工的判定工作量,减小了人工审核的负担。
第二实施例:
如图2所示,为本发明的第二实施例中判别文本安全性的方法的步骤流程图,该方法包括:
步骤201,对预先存储的已判定文本进行分析,并从已判定文本中分析得到不同判断条件的判定参数。
在本步骤中,具体的,在对预先存储的已判定文本进行分析时,可以从已判定文本中分析得到字符内容分析的判定参数中文字符、文本长度分析的判定参数长度阈值、黑名单匹配的判定参数黑名单库以及敏感词匹配的判定参数敏感词库。
步骤202,根据字符内容分析的判定参数,对文本字符从字符内容分析进行安全性判断,获得字符内容分析的判定结果。
在本步骤中,具体的,在根据字符内容分析的判定参数,对文本字符从字符内容分析进行安全性判断时,可以根据字符内容分析的判定参数中文字符,判断文本字符中是否包括有中文字符。若文本字符中不包括有中文字符,则获得的字符内容分析的判定结果为正常文本结果;若文本字符中包括有中文字符,则获得的字符内容分析的判定结果为不确定结果。在此需要说明的是,不确定结果对应的待判别文本并未被筛选出来,即判定结果为不确定结果的待判别文本还需要从其他判断条件进行安全性判断。
步骤203,根据文本长度分析的判定参数,对文本字符从文本长度分析进行安全性判断,获得文本长度分析的判定结果。
在本步骤中,具体的,在根据文本长度分析的判定参数,对文本字符从文本长度分析进行安全性判断时,可以根据文本长度分析的判定参数长度阈值,判断文本字符的文本长度是否小于等于长度阈值。若文本长度小于等于长度阈值,则获得的文本长度分析的判定结果为正常文本结果;若文本长度大于长度阈值,则获得的文本长度分析的判定结果为不确定结果。在此需要说明的是,不确定结果对应的待判别文本并未被筛选出来,即判定结果为不确定结果的待判别文本还需要从其他判断条件进行安全性判断。
步骤204,根据黑名单匹配的判定参数,对文本字符从黑名单匹配进行安全性判断,获得黑名单匹配的判定结果。
在本步骤中,具体的,在根据黑名单匹配的判定参数,对文本字符从黑名单匹配进行安全性判断时,可以根据黑名单匹配的判定参数黑名单库,判断文本字符中是否包含有与黑名单库中的字符串相匹配的字符串,其中,字符串至少包括数字和统一资源定位符URL,具体的,数字可以包括电话号码、银行卡号等。若文本字符中包含有与黑名单库中的字符串相匹配的字符串,则获得的黑名单匹配的判定结果为违规文本结果;若文本字符中不包含有与黑名单库中的字符串相匹配的字符串,则获得黑名单匹配的判定结果为不确定文本结果。在此需要说明的是,不确定结果对应的待判别文本并未被筛选出来,即判定结果为不确定结果的待判别文本还需要从其他判断条件进行安全性判断。
步骤205,根据敏感词匹配的判定参数,对文本字符从敏感词匹配进行安全性判断,获得敏感词匹配的判定结果。
在本步骤中,具体的,在根据敏感词匹配的判定参数,对文本字符的敏感词匹配进行安全性判断时,可以根据敏感词匹配的判定参数敏感词库,判断文本字符中是否包含有与敏感词库中的敏感词相匹配的分词。若文本字符中不包含有与敏感词库中的敏感词相匹配的分词,则获得的敏感词匹配的判定结果为正常文本结果;若文本字符中包含有与敏感词库中的敏感词相匹配的分词,则获得的敏感词匹配的判定结果为疑似违规文本结果。
步骤206,根据所获得的不同判断条件的判定结果,确定判定结果的类型。
在本步骤中,具体的,判定结果的类型包括第二确定结果和不确定结果,第二确定结果包括正常文本结果、违规文本结果和疑似违规文本结果。
步骤207,根据预先设置的不同判断条件的判断优先级,按照由高到低的优先级顺序选取优先级高的判断条件对应的第二确定结果作为最终判定结果。
在本步骤中,在确定不同判断条件的判定结果的类型之后,可以先预先设置不同判断条件的判断优先级,然后按照由高到低的优先级顺序选取优选级高的判断条件对应的第二确定结果作为最终判定结果。具体的,当不同判断条件包括字符内容分析、文本长度分析、黑名单匹配和敏感词匹配时,不同判断条件的由高到低的优先级序列可以为字符内容分析、文本长度分析、黑名单匹配、敏感词匹配;或者不同判断条件的由高到低的优先级序列可以为文本长度分析、字符内容分析、黑名单匹配、敏感词匹配。
下面对得到最终判定结果进行举例说明。
假设不同判断条件的优先级序列为字符内容分析、文本长度分析、黑名单匹配、敏感词匹配,且字符内容分析对应的判定结果为第二确定结果,则选取字符内容分析对应的第二确定结果为最终判定结果,若字符内容分析对应的判定结果为不确定结果,则按照优先级序列选取文本长度分析对应的第二确定结果为最终判定结果,以此类推,直至选取出最终判定结果为止。具体的,最终判定结果可以为第二确定结果中正常文本结果、违规文本结果和疑似违规文本结果中的一种。
步骤208,将经过人工审核并已有人工审核判定结果的疑似违规文本结果对应的疑似文本更新至预先存储的已判定文本中。
具体的,若最终判定结果为疑似违规文本结果,则可以对疑似违规文本结果对应的疑似文本进行人工审核,并得到人工审核判定结果。在本步骤中,则可以将经过人工审核并已有人工审核判定结果的疑似违规文本结果对应的疑似文本更新至预先存储的已判定文本中。将有人工审核判定结果的疑似文本更新至已判定文本中,可以增加已判定文本的覆盖率,从而使得能够根据已判定文本分析得出更准确的判定参数,最终使得根据不同判断条件的判定参数对文本字符从不同判断条件进行安全性判断时,能够获得更加准确的判定结果,提高了文本判别的准确率和效率,降低了人工的判定工作量,减小了人工审核的负担。
本实施例利用预先存储的已判定文本获得的字符内容分析对应的判定参数中文字符、文本长度分析对应的判定参数长度阈值、黑名单匹配对应的判定参数黑名单库以及敏感词匹配对应的判定参数敏感词库,并根据不同判断条件的判定参数分别从字符内容分析、文本长度分析、黑名单匹配和敏感词匹配四个判断条件对待判别文本进行安全性判断,并分别获得判定结果,最后按照由高到低的优先级顺序选取优先级高的判断条件对应的第二确定结果作为最终判定结果,并在最终判定结果为疑似违规文本结果时,将经过人工审核并已有人工审核判定结果的疑似违规文本结果对应的疑似文本更新至预先存储的已判定文本中。本实施例增加了待判别文本安全性判断的判断条件的维度,提高了文本判别的准确率和效率,降低了人工的判定工作量。此外,本实施例将经过人工审核并已有人工审核判定结果的疑似违规文本结果对应的疑似文本更新至预先存储的已判定文本中,增加了已判定文本的覆盖率,从而使得能够根据已判定文本分析得出更准确的判定参数,最终使得根据不同判断条件的判定参数对文本字符从不同判断条件进行安全性判断时,能够获得更加准确的判定结果,提高了文本判别的准确率和效率,降低了人工的判定工作量,减小了人工审核的负担。
第三实施例:
如图3所示,为本发明的第二实施例中步骤201的分步骤流程图,步骤201包括:
步骤2011,根据已判定文本确定第一判断条件对应的参考参数。
在本步骤中,具体的,第一判断条件可以为字符内容分析、文本长度分析、黑名单匹配和敏感词匹配中的任意一个。此外,字符内容分析对应的参考参数为中文字符,文本长度分析对应的参考参数为文本长度值、黑名单匹配对应的参考参数为黑名单库以及敏感词匹配对应的参考参数为敏感词库。
另外,具体的,当第一判断条件为黑名单匹配时,在根据已判定文本确定黑名单匹配对应的参考参数时,可以从已判定文本的违规文本结果对应的违规文本中提取不同的字符串,并将多个不同的字符串组成黑名单匹配对应的参考参数黑名单库,其中,字符串至少包括数字和URL。具体的,数字可以包括电话号码和银行卡号等。
另外,具体的,当第一判断条件为敏感词匹配时,在根据已判定文本确定敏感词匹配对应的参考参数敏感词库时,可以先将一预设敏感词库中的敏感词与已判定文本中的违规文本结果对应的违规文本进行匹配,并计算敏感词的匹配度;然后根据计算得到的匹配度,将匹配度小于匹配度阈值的敏感词从预设敏感词库中清除,并将预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库。
具体的,在将预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库之后,还可以先从敏感词库中筛选出匹配度值最高的敏感词以及从已判定文本中筛选出与匹配度值最高的敏感词匹配的文本;其次将敏感词库中剩余敏感词与已判定文本中剩余文本进行匹配,并计算剩余敏感词的匹配度;再其次根据计算得到的剩余敏感词的匹配度,从剩余敏感词中筛选出匹配度等级最高的敏感词以及从剩余文本中筛选出与匹配度等级最高的敏感词匹配的文本,其中,匹配度的等级随匹配度值的增大而增加;然后重复进入将敏感词库中剩余敏感词与已判定文本中剩余文本进行匹配,并计算剩余敏感词的匹配度的步骤,直至剩余敏感词的匹配度为零;最后将筛选出的敏感词组成敏感词匹配对应的判定参数敏感词库。依据以上方式筛选出的判定参数敏感词库,可以尽可能的减少敏感词与待判定文本的重复匹配。
步骤2012,根据第一判断条件对应的参考参数,对多个已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率。
在本步骤中,具体的,判定结果包括第一确定结果和不确定结果,第一确定结果包括正常文本结果和违规文本结果。
此外,在计算判定结果为第一确定结果的文本的占比率和误判率中,可以根据公式计算判定结果为第一确定结果的文本的占比率,其中,R表示占比率,WS表示根据第一判断条件对应的参考参数,对多个已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,MS表示多个已判定文本的总数量。根据公式计算判定结果为第一确定结果的文本的误判率,其中,F表示误判率,WS表示根据第一判断条件对应的参考参数,对多个已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,JW表示已判定文本中第一确定结果与已判定文本的已判定结果不相符的文本的数量。
步骤2013,将参考参数对应的占比率与一占比率阈值进行比较,将参考参数对应的误判率与一误判率阈值进行比较,将占比率大于一占比率阈值且误判率小于一误判率阈值对应的参考参数作为第一判断条件对应的判定参数。
在本步骤中,具体的,参考参数对应的占比率和误差率均满足作为判定参数需要满足的条件,即占比率大于一占比率阈值且误判率小于一误判率阈值时,该参考参数才能够作为判定参数。在此需要说明的是,不同的参考参数对应的占比率阈值和误判率阈值均不相同。
下面对分别得到文本长度分析对应的判定参数及敏感词匹配对应的判定参数进行说明。
对于文本长度分析对应的判定参数,假设文本长度分析对应的参考参数文本长度值为L,即在根据文本长度值L对多个已判定文本进行安全性判断时,当已判定文本的文本长度小于等于L时,判定已判定文本的判定结果为正常文本结果,当已判定文本的文本长度大于L时,判定已判定文本的判定结果为违规文本结果。这样,可以根据以上判断方式计算文本长度值L对应的判定结果为第一确定结果的文本的占比率和误判率。其中,占比率为依据L判定得到的正常文本结果对应的正常文本数量与已判定文本总数量的比值,误判率为依据L判断错误的文本数量与依据L判定得到的正常文本结果对应的正常文本数量的比值,其中,判断错误的标准为依据L判定得到的正常文本结果对应的正常文本实际为已判定文本中的违规文本。
依上计算出多个L对应的占比率和误判率,如图4所示,为长度阈值训练中多个文本长度值对应的误判率和占比率的曲线图。从图中可以看到,占比率基本呈线性变化,但误判率在文本长度值超过15之后,呈指数型增长。考虑到正常文本结果对应的已判定文本实际为违规文本时为错误判定,因此为了尽量减少误判,可以将误判率阈值设置的较低一些,从而选择满足大于一占比率阈值的占比率且小于一误判率阈值的误判率对应的文本长度值作为文本长度分析的判定参数长度阈值。在此需要说明的是,长度阈值的选择可以根据不同的需求进行调整。
对于敏感词匹配的判定参数,假设参考参数敏感词库为P,即在根据敏感词库P对多个已判定文本进行安全性判断时,当P中的敏感词与已判定文本匹配时,判定已判定文本的判定结果为违规文本结果,当P中的敏感词与已判定文本不匹配时,判定已判定文本的判定结果为正常文本结果,以此计算敏感词库P对应的判定结果为第一确定结果的文本的占比率和误判率。
如图5所示,为敏感词匹配度训练中依据多个敏感词匹配度筛选到的敏感词库的占比率和误判率的曲线图。从图中可以看出,在匹配度值为0~0.2之间时,随着敏感词匹配度值的增长,占比率也随之增长,但误判率却大概呈抛物线变化。考虑到违规文本结果对应的已判定文本实际为正常文本时为错误判定,因此为了尽量减少误判,可以将误判率阈值设置的较低一些,从而选择满足大于一占比率阈值的占比率且小于一误判率阈值的误判率对应的敏感词库作为敏感词匹配的判定参数敏感词库。在此需要说明的是,敏感词库的选择可以根据不同的需求进行调整。
在本实施例中,依据占比率公式和误判率公式来对预先存储的已判定文本进行分析,并将满足大于一占比率阈值的占比率和小于一误判率阈值的误判率对应的不同判断条件的参考参数作为不同判断条件的判定参数,提高了判定参数的准确性,从而使得根据不同判断条件的判定参数对文本字符从不同判断条件进行安全性判断时,能够获得更加准确的判定结果,提高了文本判别的准确率和效率,降低了人工的判定工作量,减小了人工审核的负担。
第四实施例:
如图6所示,为本发明的第四实施例中判别文本安全性的装置的结构框图,该装置包括:
获取模块301,用于获取待判别文本,并提取待判别文本的文本字符;
判断模块302,用于根据不同判断条件的判定参数,对文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,不同判断条件的判定参数为根据预先存储的已判定文本获得的;
确定模块303,用于根据分析模块获得的不同判断条件的判定结果,确定待判别文本的最终判定结果。
可选的,判断模块302中的不同判断条件至少包括:字符内容分析、文本长度分析、黑名单匹配和敏感词匹配。
可选的,装置还包括分析模块,用于对预先存储的已判定文本进行分析,并从已判定文本中分析得到不同判断条件的判定参数。
可选的,分析模块包括:确定单元,用于根据已判定文本确定第一判断条件对应的参考参数,其中,第一判断条件为字符内容分析、文本长度分析、黑名单匹配和敏感词匹配中的任意一个;计算单元,用于根据第一判断条件对应的参考参数,对多个已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率,其中,判定结果包括第一确定结果和不确定结果,第一确定结果包括正常文本结果和违规文本结果;选取单元,用于将参考参数对应的占比率与一占比率阈值进行比较,将参考参数对应的误判率与一误判率阈值进行比较,将占比率大于一占比率阈值且误判率小于一误判率阈值对应的参考参数作为第一判断条件对应的判定参数。
可选的,计算单元还用于,根据公式计算判定结果为第一确定结果的文本的占比率,其中,R表示占比率,WS表示根据第一判断条件对应的参考参数,对多个已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,MS表示多个已判定文本的总数量;根据公式计算判定结果为第一确定结果的文本的误判率,其中,F表示误判率,WS表示根据第一判断条件对应的参考参数,对多已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,JW表示已判定文本中第一确定结果与已判定文本的已判定结果不相符的文本的数量。
可选的,在确定单元中,字符内容分析对应的参考参数为中文字符,文本长度分析对应的参考参数为文本长度值、黑名单匹配对应的参考参数为黑名单库以及敏感词匹配对应的参考参数为敏感词库。
可选的,当第一判断条件为黑名单匹配时,确定单元还用于,从已判定文本的违规文本结果对应的违规文本中提取不同的字符串,并将多个不同的字符串组成黑名单匹配对应的参考参数黑名单库,其中,字符串至少包括数字和统一资源定位符URL。
可选的,当第一判断条件为敏感词匹配时,确定单元还用于,将一预设敏感词库中的敏感词与已判定文本中的违规文本结果对应的违规文本进行匹配,并计算敏感词的匹配度;根据计算得到的敏感词的匹配度,将匹配度小于匹配度阈值的敏感词从预设敏感词库中清除,并将预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库。
可选的,装置还包括筛选模块,用于从敏感词库中筛选出匹配度值最高的敏感词以及从已判定文本中筛选出与匹配度值最高的敏感词匹配的文本;将敏感词库中剩余敏感词与已判定文本中剩余文本进行匹配,并计算剩余敏感词的匹配度;根据计算得到的剩余敏感词的匹配度,从剩余敏感词中筛选出匹配度等级最高的敏感词以及从剩余文本中筛选出与匹配度等级最高的敏感词匹配的文本,其中,匹配度的等级随匹配度值的增大而增加;重复进入将敏感词库中剩余敏感词与已判定文本中剩余文本进行匹配,并计算剩余敏感词的匹配度的步骤,直至剩余敏感词的匹配度为零;将筛选出的敏感词组成敏感词匹配对应的判定参数敏感词库。
可选的,分析模块还用于,根据字符内容分析的判定参数中文字符,判断文本字符中是否包含有中文字符;若文本字符中不包含有中文字符,则字符内容分析的判定结果为正常文本结果;若文本字符中包含有中文字符,则字符内容分析的判定结果为不确定结果。
可选的,分析模块还用于,根据文本长度分析的判定参数长度阈值,判断文本字符的文本长度是否小于等于长度阈值;若文本长度小于等于长度阈值,则文本长度分析的判定结果为正常文本结果;若文本长度大于长度阈值,则文本长度分析的判定结果为不确定结果。
可选的,分析模块还用于,根据黑名单匹配的判定参数黑名单库,判断文本字符中是否包含有与黑名单库中的字符串相匹配的字符串,其中,字符串至少包括数字和URL;若文本字符中包含有与黑名单库中的字符串相匹配的字符串,则黑名单匹配的判定结果为违规文本结果;若文本字符中不包含有与黑名单库中的字符串相匹配的字符串,则黑名单匹配的判定结果为不确定文本结果。
可选的,分析模块还用于,根据敏感词匹配的判定参数敏感词库,判断文本字符中是否包含有与敏感词库中的敏感词相匹配的分词;若文本字符中不包含有与敏感词库中的敏感词相匹配的分词,则敏感词匹配的判定结果为正常文本结果;若文本字符中包含有与敏感词库中的敏感词相匹配的分词,则敏感词匹配的判定结果为疑似违规文本结果。
可选的,确定模块还用于,根据所获得的不同判断条件的判定结果,确定判定结果的类型,其中,判定结果的类型包括第二确定结果和不确定结果,第二确定结果包括正常文本结果、违规文本结果和疑似违规文本结果;根据预先设置的不同判断条件的判断优先级,按照由高到低的优先级顺序选取优先级高的判断条件对应的第二确定结果作为最终判定结果。
可选的,装置还包括更新模块,用于将经过人工审核并已有人工审核判定结果的疑似违规文本结果对应的疑似文本更新至预先存储的已判定文本中。
可选的,确定模块还用于,当不同判断条件包括字符内容分析、文本长度分析、黑名单匹配和敏感词匹配时,不同判断条件的由高到低的优先级序列为字符内容分析、文本长度分析、黑名单匹配、敏感词匹配;或者不同判断条件的由高到低的优先级序列为文本长度分析、字符内容分析、黑名单匹配、敏感词匹配。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。

Claims (32)

1.一种判别文本安全性的方法,其特征在于,所述方法包括:
获取待判别文本,并提取所述待判别文本的文本字符;
根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,所述不同判断条件的判定参数为根据预先存储的已判定文本获得的;
根据所获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果。
2.根据权利要求1所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,不同判断条件至少包括:字符内容分析、文本长度分析、黑名单匹配和敏感词匹配。
3.根据权利要求2所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果之前,所述方法还包括:
对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数。
4.根据权利要求3所述的方法,其特征在于,所述对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数,包括:
根据所述已判定文本确定第一判断条件对应的参考参数,其中,所述第一判断条件为字符内容分析、文本长度分析、黑名单匹配和敏感词匹配中的任意一个;
根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率,其中,判定结果包括第一确定结果和不确定结果,第一确定结果包括正常文本结果和违规文本结果;
将所述参考参数对应的占比率与一占比率阈值进行比较,将所述参考参数对应的误判率与一误判率阈值进行比较,将占比率大于一占比率阈值且误判率小于一误判率阈值对应的参考参数作为所述第一判断条件对应的判定参数。
5.根据权利要求4所述的方法,其特征在于,在根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率中,
根据公式计算判定结果为第一确定结果的文本的占比率,其中,R表示所述占比率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,MS表示多个所述已判定文本的总数量;
根据公式计算判定结果为第一确定结果的文本的误判率,其中,F表示所述误判率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,JW表示所述已判定文本中第一确定结果与所述已判定文本的已判定结果不相符的文本的数量。
6.根据权利要求4所述的方法,其特征在于,在所述根据所述已判定文本确定第一判断条件对应的参考参数中,
所述字符内容分析对应的参考参数为中文字符,所述文本长度分析对应的参考参数为文本长度值、所述黑名单匹配对应的参考参数为黑名单库以及所述敏感词匹配对应的参考参数为敏感词库。
7.根据权利要求6所述的方法,其特征在于,当第一判断条件为黑名单匹配时,所述根据所述已判定文本确定第一判断条件对应的参考参数包括:
从所述已判定文本的违规文本结果对应的违规文本中提取不同的字符串,并将所述多个不同的字符串组成黑名单匹配对应的参考参数黑名单库,其中,所述字符串至少包括数字和统一资源定位符URL。
8.根据权利要求6所述的方法,其特征在于,当第一判断条件为敏感词匹配时,所述根据所述已判定文本确定第一判断条件对应的参考参数包括:
将一预设敏感词库中的敏感词与所述已判定文本中的违规文本结果对应的违规文本进行匹配,并计算所述敏感词的匹配度;
根据计算得到的敏感词的匹配度,将匹配度小于匹配度阈值的敏感词从所述预设敏感词库中清除,并将所述预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库。
9.根据权利要求8所述的方法,其特征在于,在将匹配度小于一匹配度阈值的敏感词从所述预设敏感词库中清除,并将所述预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库之后,所述方法还包括:
从所述敏感词库中筛选出匹配度值最高的敏感词以及从所述已判定文本中筛选出与所述匹配度值最高的敏感词匹配的文本;
将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度;
根据计算得到的剩余敏感词的匹配度,从所述剩余敏感词中筛选出匹配度等级最高的敏感词以及从所述剩余文本中筛选出与所述匹配度等级最高的敏感词匹配的文本,其中,所述匹配度的等级随匹配度值的增大而增加;
重复进入将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度的步骤,直至所述剩余敏感词的匹配度为零;
将筛选出的敏感词组成敏感词匹配对应的判定参数敏感词库。
10.根据权利要求2所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据字符内容分析的判定参数,对所述文本字符从字符内容分析进行安全性判断,获得字符内容分析的判定结果,包括:
根据字符内容分析的判定参数中文字符,判断所述文本字符中是否包含有中文字符;
若所述文本字符中不包含有中文字符,则所述字符内容分析的判定结果为正常文本结果;
若所述文本字符中包含有中文字符,则所述字符内容分析的判定结果为不确定结果。
11.根据权利要求2所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据文本长度分析的判定参数,对所述文本字符从文本长度分析进行安全性判断,获得文本长度分析的判定结果,包括:
根据文本长度分析的判定参数长度阈值,判断所述文本字符的文本长度是否小于等于所述长度阈值;
若所述文本长度小于等于所述长度阈值,则所述文本长度分析的判定结果为正常文本结果;
若所述文本长度大于所述长度阈值,则所述文本长度分析的判定结果为不确定结果。
12.根据权利要求2所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据黑名单匹配的判定参数,对所述文本字符从黑名单匹配进行安全性判断,获得黑名单匹配的判定结果,包括:
根据黑名单匹配的判定参数黑名单库,判断所述文本字符中是否包含有与所述黑名单库中的字符串相匹配的字符串,其中,所述字符串至少包括数字和URL;
若所述文本字符中包含有与所述黑名单库中的字符串相匹配的字符串,则所述黑名单匹配的判定结果为违规文本结果;
若所述文本字符中不包含有与所述黑名单库中的字符串相匹配的字符串,则所述黑名单匹配的判定结果为不确定文本结果。
13.根据权利要求2所述的方法,其特征在于,所述根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果中,根据敏感词匹配的判定参数,对所述文本字符从敏感词匹配进行安全性判断,获得敏感词匹配的判定结果,包括:
根据敏感词匹配的判定参数敏感词库,判断所述文本字符中是否包含有与所述敏感词库中的敏感词相匹配的分词;
若所述文本字符中不包含有与所述敏感词库中的敏感词相匹配的分词,则所述敏感词匹配的判定结果为正常文本结果;
若所述文本字符中包含有与所述敏感词库中的敏感词相匹配的分词,则所述敏感词匹配的判定结果为疑似违规文本结果。
14.根据权利要求1所述的方法,其特征在于,根据所获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果,包括:
根据所获得的不同判断条件的判定结果,确定判定结果的类型,其中,所述判定结果的类型包括第二确定结果和不确定结果,所述第二确定结果包括正常文本结果、违规文本结果和疑似违规文本结果;
根据预先设置的不同判断条件的判断优先级,按照由高到低的优先级顺序选取优先级高的判断条件对应的所述第二确定结果作为最终判定结果。
15.根据权利要求14所述的方法,其特征在于,当所述最终判定结果为疑似违规文本结果时,所述方法还包括:
将经过人工审核并已有人工审核判定结果的疑似违规文本结果对应的疑似文本更新至所述预先存储的已判定文本中。
16.根据权利要求14所述的方法,其特征在于,在所述根据预先设置的不同判断条件的判断优先级,按照由高到低的优先级顺序选取优先级高的判断条件对应的所述第二确定结果作为最终判定结果中,
当不同判断条件包括字符内容分析、文本长度分析、黑名单匹配和敏感词匹配时,不同判断条件的由高到低的优先级序列为字符内容分析、文本长度分析、黑名单匹配、敏感词匹配;或者
不同判断条件的由高到低的优先级序列为文本长度分析、字符内容分析、黑名单匹配、敏感词匹配。
17.一种判别文本安全性的装置,其特征在于,所述装置包括:
获取模块,用于获取待判别文本,并提取所述待判别文本的文本字符;
判断模块,用于根据不同判断条件的判定参数,对所述文本字符分别从不同判断条件进行安全性判断,并分别获得不同判断条件的判定结果,其中,所述不同判断条件的判定参数为根据预先存储的已判定文本获得的;
确定模块,用于根据分析模块获得的不同判断条件的判定结果,确定所述待判别文本的最终判定结果。
18.根据权利要求17所述的装置,其特征在于,所述判断模块中的不同判断条件至少包括:字符内容分析、文本长度分析、黑名单匹配和敏感词匹配。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括分析模块,用于对预先存储的已判定文本进行分析,并从所述已判定文本中分析得到不同判断条件的判定参数。
20.根据权利要求19所述的装置,其特征在于,所述分析模块包括:
确定单元,用于根据所述已判定文本确定第一判断条件对应的参考参数,其中,所述第一判断条件为字符内容分析、文本长度分析、黑名单匹配和敏感词匹配中的任意一个;
计算单元,用于根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断,并计算判定结果为第一确定结果的文本的占比率和误判率,其中,判定结果包括第一确定结果和不确定结果,第一确定结果包括正常文本结果和违规文本结果;
选取单元,用于将所述参考参数对应的占比率与一占比率阈值进行比较,将所述参考参数对应的误判率与一误判率阈值进行比较,将占比率大于一占比率阈值且误判率小于一误判率阈值对应的参考参数作为所述第一判断条件对应的判定参数。
21.根据权利要求20所述的装置,其特征在于,所述计算单元还用于,
根据公式计算判定结果为第一确定结果的文本的占比率,其中,R表示所述占比率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,MS表示多个所述已判定文本的总数量;
根据公式计算判定结果为第一确定结果的文本的误判率,其中,F表示所述误判率,WS表示根据第一判断条件对应的参考参数,对多个所述已判定文本从第一判断条件进行安全性判断时,获得判定结果为第一确定结果的文本的数量,JW表示所述已判定文本中第一确定结果与所述已判定文本的已判定结果不相符的文本的数量。
22.根据权利要求20所述的装置,其特征在于,在所述确定单元中,所述字符内容分析对应的参考参数为中文字符,所述文本长度分析对应的参考参数为文本长度值、所述黑名单匹配对应的参考参数为黑名单库以及所述敏感词匹配对应的参考参数为敏感词库。
23.根据权利要求22所述的装置,其特征在于,当第一判断条件为黑名单匹配时,所述确定单元还用于,从所述已判定文本的违规文本结果对应的违规文本中提取不同的字符串,并将所述多个不同的字符串组成黑名单匹配对应的参考参数黑名单库,其中,所述字符串至少包括数字和统一资源定位符URL。
24.根据权利要求22所述的装置,其特征在于,当第一判断条件为敏感词匹配时,所述确定单元还用于,将一预设敏感词库中的敏感词与所述已判定文本中的违规文本结果对应的违规文本进行匹配,并计算所述敏感词的匹配度;根据计算得到的敏感词的匹配度,将匹配度小于匹配度阈值的敏感词从所述预设敏感词库中清除,并将所述预设敏感词库中剩余的敏感词组成敏感词匹配对应的参考参数敏感词库。
25.根据权利要求24所述的装置,其特征在于,所述装置还包括筛选模块,用于从所述敏感词库中筛选出匹配度值最高的敏感词以及从所述已判定文本中筛选出与所述匹配度值最高的敏感词匹配的文本;将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度;根据计算得到的剩余敏感词的匹配度,从所述剩余敏感词中筛选出匹配度等级最高的敏感词以及从所述剩余文本中筛选出与所述匹配度等级最高的敏感词匹配的文本,其中,所述匹配度的等级随匹配度值的增大而增加;重复进入将所述敏感词库中剩余敏感词与所述已判定文本中剩余文本进行匹配,并计算所述剩余敏感词的匹配度的步骤,直至所述剩余敏感词的匹配度为零;将筛选出的敏感词组成敏感词匹配对应的判定参数敏感词库。
26.根据权利要求18所述的装置,其特征在于,所述分析模块还用于,根据字符内容分析的判定参数中文字符,判断所述文本字符中是否包含有中文字符;若所述文本字符中不包含有中文字符,则所述字符内容分析的判定结果为正常文本结果;若所述文本字符中包含有中文字符,则所述字符内容分析对应的判定结果为不确定结果。
27.根据权利要求18所述的装置,其特征在于,所述分析模块还用于,根据文本长度分析的判定参数长度阈值,判断所述文本字符的文本长度是否小于等于所述长度阈值;若所述文本长度小于等于所述长度阈值,则所述文本长度分析的判定结果为正常文本结果;若所述文本长度大于所述长度阈值,则所述文本长度分析的判定结果为不确定结果。
28.根据权利要求18所述的装置,其特征在于,所述分析模块还用于,根据黑名单匹配的判定参数黑名单库,判断所述文本字符中是否包含有与所述黑名单库中的字符串相匹配的字符串,其中,所述字符串至少包括数字和URL;若所述文本字符中包含有与所述黑名单库中的字符串相匹配的字符串,则所述黑名单匹配的判定结果为违规文本结果;若所述文本字符中不包含有与所述黑名单库中的字符串相匹配的字符串,则所述黑名单匹配的判定结果为不确定文本结果。
29.根据权利要求18所述的装置,其特征在于,所述分析模块还用于,根据敏感词匹配的判定参数敏感词库,判断所述文本字符中是否包含有与所述敏感词库中的敏感词相匹配的分词;若所述文本字符中不包含有与所述敏感词库中的敏感词相匹配的分词,则所述敏感词匹配的判定结果为正常文本结果;若所述文本字符中包含有与所述敏感词库中的敏感词相匹配的分词,则所述敏感词匹配的判定结果为疑似违规文本结果。
30.根据权利要求17所述的装置,其特征在于,所述确定模块还用于,根据所获得的不同判断条件的判定结果,确定判定结果的类型,其中,所述判定结果的类型包括第二确定结果和不确定结果,所述第二确定结果包括正常文本结果、违规文本结果和疑似违规文本结果;根据预先设置的不同判断条件的判断优先级,按照由高到低的优先级顺序选取优先级高的判断条件对应的所述第二确定结果作为最终判定结果。
31.根据权利要求30所述的装置,其特征在于,所述装置还包括更新模块,用于将经过人工审核并已有人工审核判定结果的疑似违规文本结果对应的疑似文本更新至所述预先存储的已判定文本中。
32.根据权利要求30所述的装置,其特征在于,所述确定模块还用于,当不同判断条件包括字符内容分析、文本长度分析、黑名单匹配和敏感词匹配时,不同判断条件的由高到低的优先级序列为字符内容分析、文本长度分析、黑名单匹配、敏感词匹配;或者不同判断条件的由高到低的优先级序列为文本长度分析、字符内容分析、黑名单匹配、敏感词匹配。
CN201510977485.4A 2015-12-23 2015-12-23 一种判别文本安全性的方法及装置 Pending CN106909534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510977485.4A CN106909534A (zh) 2015-12-23 2015-12-23 一种判别文本安全性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510977485.4A CN106909534A (zh) 2015-12-23 2015-12-23 一种判别文本安全性的方法及装置

Publications (1)

Publication Number Publication Date
CN106909534A true CN106909534A (zh) 2017-06-30

Family

ID=59199345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510977485.4A Pending CN106909534A (zh) 2015-12-23 2015-12-23 一种判别文本安全性的方法及装置

Country Status (1)

Country Link
CN (1) CN106909534A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363717A (zh) * 2017-12-29 2018-08-03 天津南大通用数据技术股份有限公司 一种数据安全级别的识别检测方法及装置
CN108596759A (zh) * 2018-05-09 2018-09-28 平安普惠企业管理有限公司 贷款申请信息检测方法及服务器
CN109766441A (zh) * 2018-12-28 2019-05-17 北京奇安信科技有限公司 文本分类方法、装置及系统
CN109831751A (zh) * 2019-01-04 2019-05-31 上海创蓝文化传播有限公司 一种基于自然语言处理的短信内容风控系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101150756A (zh) * 2007-11-08 2008-03-26 电子科技大学 一种垃圾短信过滤方法
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101902523A (zh) * 2010-07-09 2010-12-01 中兴通讯股份有限公司 一种移动终端及其短信的过滤方法
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101150756A (zh) * 2007-11-08 2008-03-26 电子科技大学 一种垃圾短信过滤方法
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101902523A (zh) * 2010-07-09 2010-12-01 中兴通讯股份有限公司 一种移动终端及其短信的过滤方法
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363717A (zh) * 2017-12-29 2018-08-03 天津南大通用数据技术股份有限公司 一种数据安全级别的识别检测方法及装置
CN108363717B (zh) * 2017-12-29 2021-03-12 天津南大通用数据技术股份有限公司 一种数据安全级别的识别检测方法及装置
CN108596759A (zh) * 2018-05-09 2018-09-28 平安普惠企业管理有限公司 贷款申请信息检测方法及服务器
CN109766441A (zh) * 2018-12-28 2019-05-17 北京奇安信科技有限公司 文本分类方法、装置及系统
CN109831751A (zh) * 2019-01-04 2019-05-31 上海创蓝文化传播有限公司 一种基于自然语言处理的短信内容风控系统及方法

Similar Documents

Publication Publication Date Title
CN104899267B (zh) 一种社交网站账号相似度的综合数据挖掘方法
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN107566391B (zh) 域识别加主题识别构建机器学习模型检测网页暗链的方法
CN109005145A (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN107633227A (zh) 一种基于csi的细粒度手势识别方法和系统
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN103854063B (zh) 一种基于互联网开放信息的事件发生风险预测并预警方法
CN104216876B (zh) 信息文本过滤方法及系统
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN106445998A (zh) 一种基于敏感词的文本内容审核方法及系统
CN103646112B (zh) 利用了网络搜索的依存句法的领域自适应方法
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN103634473A (zh) 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN110266675A (zh) 一种基于深度学习的xss攻击自动化检测方法
CN102332028A (zh) 一种面向网页的不良Web内容识别方法
CN106909534A (zh) 一种判别文本安全性的方法及装置
CN102279875A (zh) 钓鱼网站的识别方法和装置
CN102890702A (zh) 一种面向网络论坛的意见领袖挖掘方法
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN105354305A (zh) 一种网络谣言的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170630

RJ01 Rejection of invention patent application after publication