CN107483420B - 信息审核装置及方法 - Google Patents
信息审核装置及方法 Download PDFInfo
- Publication number
- CN107483420B CN107483420B CN201710644323.8A CN201710644323A CN107483420B CN 107483420 B CN107483420 B CN 107483420B CN 201710644323 A CN201710644323 A CN 201710644323A CN 107483420 B CN107483420 B CN 107483420B
- Authority
- CN
- China
- Prior art keywords
- information
- auditing
- bayesian
- model
- audit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0245—Filtering by information in the payload
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/0643—Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Power Engineering (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种信息审核装置及方法,其中,该信息审核装置包括预处理模块,用于对接收的待审信息进行预处理,得到预处理信息;审核模块,包括贝叶斯分类器,该审核模块用于设置与历史信息的已接收天数成反向关系的时间因子,将该时间因子作为贝叶斯分类器的权重值,固化在该贝叶斯分类器,构建贝叶斯审核模型,并根据所述贝叶斯审核模型对所述预处理信息进行审核,其中,所述历史信息指审核后的信息;以及处理模块,用于输出审核通过的信息,以及拦截审核未通过的信息。通过本公开的信息审核装置及方法,能够将时间因子与贝叶斯审核结合,有效地提高了审核的准确性、时效性和审核效率,同时还降低了审核成本。
Description
技术领域
本公开涉及通信领域的信息内容的业务处理,尤其涉及一种信息审核装置及方法。
背景技术
短信垃圾短信一直是困扰手机用户的顽疾,2016年据统计手机用户已超过13亿,移动互联网飞速发展,企业短信作为一种收发便捷、移动性好、价格低廉的通讯方式,逐渐影响着人们的生活。但随着短信的日益普及,垃圾短信问题也变得日益严峻,其严重的泛滥不仅仅严重影响人们的正常生活,而且严重影响社会稳定和公共安全。公司作为企业短信的运营管理部门,应该义不容辞地承担起社会责任来为用户提供通畅、安全的短信网络服务,因此对垃圾短信智能识别分类和拦截过滤的研究成了目前企业短信运营面对的重要课题。
由于垃圾短消息具有很强的重复性、欺骗性、强制性以及传播速度快等特点,严重扰乱了用户的个人正常生活。近年来经得到应用,随着信息过滤技术的深入研究以及相关部门的重视,部分信息过滤机制随着产生,但是不够智能,不够人性化,尤其在短信网关,每天接收千万甚至上亿条短信,人工审核费时费力,增加了运营商的运营成本。
公开内容
(一)要解决的技术问题
本公开的目的在于提供一种信息审核装置及方法,以解决上述的至少一项技术问题。
(二)技术方案
本公开提供了一种信息审核装置,包括:预处理模块,用于对接收的待审信息进行预处理,得到预处理信息;审核模块,包括贝叶斯分类器,该审核模块用于设置与历史信息的已接收天数成反向关系的时间因子,将该时间因子作为贝叶斯分类器的权重值,构建贝叶斯审核模型,并根据所述贝叶斯审核模型对所述预处理信息进行审核,其中,所述历史信息指审核后的信息;以及处理模块,用于输出审核通过的信息,以及拦截审核未通过的信息。
在本公开的一些实施例中,所述贝叶斯分类器还用于在每一天的预定时间,剔除历史信息中超过规定时间的部分,得到规定历史信息,根据规定历史信息的时间因子,构建更新后的贝叶斯审核模型。
在本公开的一些实施例中,所述审核模块还包括:敏感词审核单元,用于基于DFA(确定的有穷自动机)算法构建敏感词过滤词库,基于多模式模糊识别与敏感词识别算法,识别预处理信息中是否包含敏感词过滤词库中的敏感词,若不包含,则该预处理信息输出至贝叶斯审核模型,若包含,则该预处理信息作为审核未通过的信息输出至处理模块;以及泛化模板审核单元,用于分析历史信息的特点,构建基于CRF(条件随机场)的名称识别模型实现信息中的名称的替换;对替换后的信息采用基于HMM模型的分词器进行分词,抽取其中的主干;对主干进行MD5编码,根据主干的MD5编码以及审核未通过的历史信息,构建Hashmap(哈希表);以及用于对预处理信息进行MD5(消息摘要算法第五版)编码,判断所述预处理信息的MD5编码是否能在该Hashmap中找到,若不能找到,则该预处理信息输出至贝叶斯审核模型,若能找到,则该预处理信息作为审核未通过的信息输出至处理模块。
在本公开的一些实施例中,所述预处理模块包括:乱码检测单元,用于检测该待审信息是否全为乱码,若是,则该待审信息作为审核未通过的信息输出至处理模块,若不是,则去除该待审信息中的扰码;语义分析单元,用于使用领域词库,对待审信息中的预设词语进行扩展和替换;垃圾字符剔除单元,用于合并待测信息中多余的空格;以及剔除没有实质意义的停用词或者符号;以及文本标准化单元,用于将待测信息中的繁体字转换为简体字;全角字符转换为半角字符;以及替换常见的敏感词。
在本公开的一些实施例中,所述贝叶斯分类器包括特征选择单元和实现单元,其中,特征选择单元,包括对历史信息进行分词、词性标注和去除停用词的HMM(隐马尔科夫)模型的分词器,用于通过计算历史信息中的特征T和历史信息的分类Ci的互信息MI(T;Ci),选取MI(T;Ci)大于第一阈值的特征T作为实现单元的实现特征F,其中,i取1或者2,分类Ci包括审核通过的历史信息C1与审核未通过的历史信息C2;实现单元,用于根据所述贝叶斯审核模型对预处理信息中的实现特征进行审核,得到实现特征Fn在分类Ci中的概率其中,j为正整数,且小于等于n,其中,n为正整数,若 则该待审信息为审核通过的信息;若则该待审信息为审核未通过的信息。
在本公开的一些实施例中,根据公式:和将Y(MI)=1的历史信息划分为C1,将Y(MI)=0的历史信息划分为C2,其中,thrd为第一阈值。
基于同一构思,本公开还提供了一种信息审核方法,包括:对待审信息进行预处理,得到预处理信息;设置与历史信息的已接收天数成反向关系的时间因子,将该时间因子作为权重值,构建贝叶斯审核模型,并根据所述贝叶斯审核模型对所述预处理信息进行审核,其中,所述历史信息指审核后的信息;以及输出审核通过的信息,以及拦截审核未通过的信息。
在本公开的一些实施例中,还包括更新贝叶斯审核模型的步骤:在每一天的预定时间,剔除历史信息中超过规定时间的部分,得到规定历史信息,根据规定历史信息的时间因子,构建更新后的贝叶斯审核模型。
在本公开的一些实施例中,所述审核还包括步骤:基于DFA算法构建敏感词过滤词库,基于多模式模糊识别与敏感词识别算法,识别预处理信息中是否包含敏感词过滤词库中的敏感词,若不包含,则该预处理信息输出至贝叶斯审核模型,若包含,则该预处理信息作为审核未通过的信息输出至处理模块;以及分析历史信息的特点,构建基于CRF的名称识别模型实现信息中的名称的替换;对替换后的信息采用基于HMM模型的分词器进行分词,抽取其中的主干;对主干进行MD5编码,根据主干的MD5编码以及审核未通过的历史信息,构建Hashmap;以及对预处理信息进行MD5编码,判断所述预处理信息的MD5编码是否能在该Hashmap中找到,若不能找到,则该预处理信息输出至贝叶斯审核模型,若能找到,则该预处理信息作为审核被拦截。
在本公开的一些实施例中,所述预处理包括:乱码检测,检测该待审信息是否全为乱码,若是,则该待审信息作为审核未通过的信息输出至处理模块,若不是,则去除该待审信息中的扰码;语义分析,使用领域词库,对待审信息中的预设词语进行扩展和替换;垃圾字符剔除,合并待测信息中多余的空格;以及剔除没有实质意义的停用词或者符号;以及文本标准化,将待测信息中的繁体字转换为简体字;全角字符转换为半角字符;以及替换常见的敏感词。
在本公开的一些实施例中,所述贝叶斯审核模型的构建还包括步骤:对历史信息进行分词、词性标注和去除停用词,通过计算历史信息中的特征T和历史信息的分类Ci的互信息MI(T;Ci),选取MI(T;Ci)大于第一阈值的特征T作为实现单元的实现特征F,其中,i取1或者2,分类Ci包括审核通过的历史信息C1与审核未通过的历史信息C2。
在本公开的一些实施例中,根据公式:和将Y(MI)=1的历史信息划分为C1,将Y(MI)=0的历史信息划分为C2,其中,thrd为第一阈值。
在本公开的一些实施例中,根据所述贝叶斯审核模型对所述预处理信息进行审核,包括步骤:得到实现特征Fn在分类Ci中的概率其中,j为正整数,且小于等于n,其中,n为正整数,若则该待审信息为审核通过的信息;若则该待审信息为审核未通过的信息。
(三)有益效果
本公开的信息审核装置及方法相较于现有技术具有以下至少一项优点:
1、将与历史信息的已接收天数成反向关系的时间因子作为权重值,固化在该贝叶斯分类器中,构建贝叶斯审核模型,从而对待审信息进行审核,有效的提高了审核的时效性。
2、贝叶斯审核模型还可以在特定时间剔除接收时间太长的历史信息,能够自动更新分类器模型,进一步提高了贝叶斯分类器的时效性和自动筛选能力。
3、对待审信息进行预处理,同时还增加了敏感词、泛化模板的多步审核机制,有效避免了很多常用垃圾信息过滤系统采用一种或者少许几种审核方式的缺点,有效的提高了审核的准确性。
4、可以24小时持续工作,可代替人工信审人员进行审核工作,有效的提供了审核的准确性、一致性,大大降低了信息审核的成本。
附图说明
图1为本公开实施例的信息审核装置的结构示意图。
图2为本公开实施例一具体实施例的信息审核装置的结构示意图。
图3为本公开实施例的敏感词过滤单元的敏感词库的示意图。
图4为本公开实施例的信息审核方法的步骤示意图。
具体实施方式
对于短信、微博等短文本信息以及邮件之类的长文本信息,目前常用信息过滤审核方法及机制主要有:基于关键词(敏感词)过滤、基于信息内容过滤、基于信息发送量及发送源分析过滤等。其中大多数过滤方式沿用垃圾信息处理方式,如朴素贝叶斯分类算法、支持向量机算法、决策树分类算法等自然语言处理技术进行过滤分析,任何一种方式应用都有一定的弊端。如,关键词过滤方法的需要分词处理存在大量错误识别,诸如:“某公司长期提供各种类型的发票,欢迎联系”,这条信息文本如果用“公司”、“提供”和“发票”这三个词作为关键词单一过滤,这类基于关键词的方式很容易造成错误识别和漏放,同时基于关键词的很难解决类似“提##供**发@@票”这类的信息内容。基于主叫号码的发送频次过滤机制,如采用多个号码分批次发送,这样可以逃避同一主叫号码的发送频次过滤机制。目前常用信息过滤功能是对整体垃圾信息进行不区分地完全过滤方式,有的采取直接信息内容MD5码,有的进行了部分信息内容的分词处理抽取主干词,但是不能完全解决发送者进行个性化变化的垃圾信息发送,比如营销类信息,每个客户换一个名字,或者名字加报价类的每次换个产品类型,进行营销,针对非会员就是严重的信息骚扰,容易给运营商造成大量的投诉和影响费用。再有部分发送大量的非法信息(色情服务、赌博、卖枪、欺诈、贩毒和反动等不法信息),严重中扰乱社会秩序和违反法律,必须给予审核拦截。
信息审核还存在另外一个问题,就是访问数据量大,对于实时性要求较高。人工来审核需要大量的人力物力支持,而且人工审核,存在审核不一致,误拦误放的特点,二十四小时的审核,也需要设置轮班审核,需要二十四小时不停止审核。
基于上述技术问题,本公开对目前的垃圾信息各种现象进行详细,提供了一种信息审核装置及方法。该信息审核装置包括预处理模块,用于对接收的待审信息进行预处理,得到预处理信息;审核模块,包括贝叶斯分类器,该审核模块用于设置与历史信息的已接收天数成反向关系的时间因子,将该时间因子作为贝叶斯分类器的权重值,固化在该贝叶斯分类器中,构建贝叶斯审核模型,并根据所述贝叶斯审核模型对所述预处理信息进行审核,其中,所述历史信息指审核后的信息;以及处理模块,用于输出审核通过的信息,以及拦截审核未通过的信息。通过本公开,能够将时间因子与贝叶斯审核结合,有效地提高了审核的准确性、时效性和审核效率,同时还降低了审核成本。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
本公开的一方面,提供了一种信息审核装置的结构示意图,图1为本公开实施例的信息审核装置的结构示意图。如图1所示,该信息审核装置包括:
预处理模块1,用于对接收的待审信息进行预处理,得到预处理信息;
审核模块2,包括贝叶斯分类器203,该审核模块2用于设置与历史信息的已接收天数成反向关系的时间因子,将该时间因子作为贝叶斯分类器203的权重值,固化在该贝叶斯分类器203中,构建贝叶斯审核模型,并根据所述贝叶斯审核模型对所述预处理信息进行审核,其中,所述历史信息指审核后的信息;以及
处理模块3,用于输出审核通过的信息,以及拦截审核未通过的信息。
根据历史短信研究发现垃圾短信发送时有时间性的特点:1)商场网站促销信息,都是有时间性的特点;2)会员大量的营销信息也是有时间性质的特点;3)一些非法类广告宣传信息,同样具有时间性的特点,他们必须一段时间改变位置等;4)培训招聘贷款类信息同样具有时间性的限制。通过上述例子分析,得出信息的发送一般具有时效性的特点,短信内容更倾向于发送和最近发送过类似或者相关内容的短信,传统的贝叶斯模型,训练语料是固定的,相对于短信审核的业务来说,就存在时效性的问题,随着时间的推进,短信发送的内容不断变化,导致存在大量的短信类型和词汇在短信训练数据中未出现导致审核准确率下降。按照传统模型的做法是定期重新更改训练语料,重新做模型,重新上线这一流程。这一流程考虑到线上问题,涉及到多个部门联合作业,严重影响工作效率和浪费人力物力,导致不能更新太过于频繁,针对现实中遇到的实际现象和问题本质,进行详细的分析和研究,本公开实现了引入时间因子和更新模型的方式解决上述问题。
本公开的贝叶斯分类器203,在原有计算权重基础上,增加了与历史信息的已接收天数成反向关系的时间因子,对历史信息进行训练,将时间因为作为其权值,固化在该贝叶斯分类器203中,从而构建贝叶斯审核模型,其中,所述历史信息指审核后的信息。时间因子的设计原则如下:离当前日期越近的信息,时间因子的权重越大。随着历史信息的已接收时间的不断向前,该时间因子的权重逐渐降低。通过该贝叶斯审核模型可以得到该历史信息在审核是否通过中所占的概率。
举例来说,时间因子公式为:f(x)=1+1/(x+1)。其中x代表训练样本(历史信息)被用户接收的日期与当前天的距离(已接收天数),比如今天接收的日期,x为0,昨天的接收的信息对应的x为1,前天的为2,依次类推,半年前发送的x为180。f(x)的取值为对应特征的时间因子,通过函数f(x)可以看到,随着时间的推移,越早接收的训练样本的信息的权重不断变小。随着时间的推移,特征影响权重不断减少,当已接收天数为100的时候,权重变为1.01,用这一机制保证权重近期权重高的特点。这种规律符合信息发送的内容,信息发送倾向于发送最近类似的信息。早先发送的信息数据的特征权重影响不断变小,减少早发送的信息特征对贝叶斯分类器203的影响力,保证稳定性和准确性,同时提高时效性。
此外,为了能够更新审核模型,进一步地提高审核模型的时效性,贝叶斯分类器203还在每一天的预定时间(非高峰时间,例如凌晨和午休数据),剔除历史信息中超过规定时间(例如半年)的部分,得到规定历史信息(半年内接收到的信息),以生成新的训练语料,根据规定历史信息的时间因子,按照前述步骤,对规定历史信息进行训练,构建更新后的贝叶斯审核模型。待更新后的模型生成完成,切换正在运行的模型,这一过程线上完成,不需要任何线下操作和人力维护成本,有效地提高了效率。如此,本公开便解决了传统的分类器审核模型不能实时在线训练的问题。
为使接收的待审信息能够更有序地得到审核,根据本公开的一种实施例,该信息审核装置还增加了接收模块4,用于接收并缓存来自各个客户源发送的待审信息,进行信息汇总,将待审信息输出至预处理模块1。图2为本公开实施例一具体实施例的信息审核装置的结构示意图。如图2所示,该信息审核装置包括接收模块4、预处理模块1、审核模块2和处理模块3。其中,预处理模块1可以包括:乱码检测单元101、垃圾字符剔除单元102、文本标准化单元103和语义分析单元104。
乱码检测单元101,首先检测待审信息内容是否都是乱码,若是,则跳过后面的模块,该待审信息直接作为审核未通过的信息输出至处理模块3;若不是,则对信息内容中加进行扰码的处理,主要思想是根据汉字的编码范围,即汉字第一字节范围xB0-OxF7,第二字节范围xA1-OxFE,根据各种外语编码范围进行保留,去掉其余非法字符的干扰,这样就可以实现将扰码去除,例如将“开*发**票”转换为“开发票”。
垃圾字符剔除单元102,主要是合并多余的空格,剔除部分针对信息内容没有意义的停用词或符号,为后面做特征抽取,模型分析做准备。
文本标准化单元103,对信息内容进行一次扫描,把里面含有的繁体字转换为简体字,全角字符转换为半角字符,部分拼音转化为字母,利用错别字词库,替换部分常见的错别字信息,进行部分内容检测等。
语义分析单元104,主要对分词后的结果,使用语义资源同义词词林和使用word2vec计算同义收集的领域词库,进行对之前设置好的预设词语的同义词扩展和替换,降低后面的分词维度。
根据本公开的一种实施例,审核模块2包括敏感词审核单元201、泛化模板审核单元202和贝叶斯分类器203,其中,敏感词审核单元201和泛化模板审核单元202的顺序不分前后,需要注意的是贝叶斯分类器是最后一步审核。
其中,敏感词审核单元201,用于基于DFA算法构建敏感词过滤词库,基于多模式模糊识别与精确(敏感词)识别算法,识别预处理信息中是否包含敏感词过滤词库中的敏感词,若不包含,则该预处理信息输出至贝叶斯审核模型,若包含,则该预处理信息作为审核未通过的信息输出至处理模块3;
该敏感词审核单元201是一个重要的单元,通过此单元可以把一些绝对不允许发送的内容直接拦截,维护信息的干净和方便用户,该单元采用比较高效的DFA算法改进实现。
图3为本公开实施例的敏感词过滤单元的敏感词库的示意图,如图3所示,敏感词过滤词库中存在如下几个敏感词:开发票、开收据和恭喜中奖。首先,query开--->{发、收}、query发--->{票}、query票--->{null}、query收--->{据}、query据--->{null};query恭--->{喜};query喜--->{中};query中--->{奖};;query奖--->{null}。如此,也可以按照DFA原理构建其他的敏感词过滤词库,针对色情、赌博、暴力、反动、欺诈、卖枪类不法关键词构建一个审核状态机,含有此类关键词的,直接作为审核未通过的信息输出至处理模块,如果不含有敏感词,继续进行下一步的审核。
泛化模板审核单元,用于分析历史信息的特点,构建基于CRF的名称识别模型实现信息中的名称的替换;对替换后的信息采用基于HMM模型的分词器进行分词,抽取其中的主干;对主干进行MD5编码,根据主干的MD5编码以及审核未通过的历史信息,构建Hashmap;以及用于对预处理信息进行MD5编码,判断所述预处理信息的MD5编码是否能在该Hashmap中找到,若不能找到,则该预处理信息输出至贝叶斯审核模型,若能找到,则该预处理信息作为审核未通过的信息输出至处理模块。
更具体地,泛化模板审核单元分析总结历史信息的特点,针对历史信息进行分类,采用基于CRF实现的人名以及产品名的识别模型,对信息内容进行人名和产品名等进行识别,针对识别出的人名和产品名,分别统一替换为RM和CM,提高泛化能力;针对替换后的文本采用基于改进的HMM模型的分词器进行分词,通过去除停用词,无效词(比如助词,副词,数字,量词,语气词等),抽取出信息的主干词,考虑到数据量巨大,为了缩减存储空间,提高匹配效率。
针对抽取出来的主干词进行MD5编码,将MD5对应的编码,和审核未通过的历史信息做成HashMap的Key Value数据对作为审核模板库。此外,对实时发过来的预处理信息进行同样的处理,得到其MD5编码,然后去HashMap中去查找,如果该预处理信息的MD5编码能够在审核模板库找到,则将该预处理信息作为审核未通过的信息输出至处理模块,若不能在审核模板库找到,则将该预处理信息输出至贝叶斯审核模型。
经过两重审核后的信息输出至包括特征选择单元和实现单元的贝叶斯分类器。需要注意的是,具有时间因子作为权重值的贝叶斯分类器,处理信息时都加入了时间因子的影响。
其中,特征选择单元,包括对历史信息进行分词、词性标注和去除停用词的HMM模型的分词器,用于通过计算历史信息中的特征T和历史信息的分类Ci的互信息MI(T;Ci),选取MI(T;Ci)大于第一阈值thrd(该第一阈值越大越好)的特征T作为实现单元的实现特征F。其中,i取1或者2对于历史信息依照以下公式进行分类:
得到包括审核通过的历史信息C1与审核未通过的历史信息C2的分类Ci。
互信息(Mutual Information,简称MI),定义如下(一般的互信息概念是:变量T和C的MI(T,C)=loge(P(T,C)/(P(T)*P(C)))==loge(P(T|C)/P(T))。在文本分类中,求的是对所有类的平均互信息:
在本公开实施例中,P(Ci)表示第i类信息在训练信息(历史信息)集合中出现的概率,P(T)表示特征T在训练信息集合中出现的概率,P(T|Ci)表示在第i类信息中特征T的出现概率,MI越大特征T和分类Ci的共现程度越大,根据上述要求选择合适的特征T作为实现特征F,为贝叶斯分类器的审核做准备。
实现单元,用于根据所述贝叶斯审核模型对预处理信息中的实现特征Fn进行审核,其中,n为正整数,得到实现特征Fn在分类Ci中的概率其中,j为正整数,且小于等于n,
若则该待审信息为审核通过的信息;
若则该待审信息为审核未通过的信息。
特征选择单元得到的多个实现特征,假设某个体有n项实现特征F,分别用F1、F2、...、Fn表示。现有i个类别(Category),分别为审核通过的信息C1和审核不通过的信息C2。贝叶斯分类器通过前述的贝叶斯审核模型计算出概率最大的那个分类,也就是求下面这个算式的最大值:
P(C|F1F2...Fn)=P(F1F2...Fn|C)P(C)/P(F1F2...Fn)
由于P(F1F2...Fn)对于所有的类别都是相同的,可以省略,最大值的计算就变成了求P(F1F2...Fn|C)P(C)的最大值。
贝叶斯分类器则是更进一步,假设所有特征之间都彼此独立,因此
P(F1F2...Fn|C)P(C)=P(F1|C)P(F2|C)...P(Fn|C)P(C)
上式等号右边的每一项,都可以从历史信息中得到,由此就可以计算出每个类别对应的概率,从而找出最大概率的那个类,具体举例如下:
其中,P(Fn|C)的求法:以信息审核分类为例,将历史信息的特征作为一个向量,那么Fn的分量就是一个词在这条信息中是否存在。例如:
Fn=1 if″发票″在信息文本中出现
0 otherwise
对于Fn,它的P(Fn|C1)就是统计所有历史信息内容中有多少条出现了“发票”这词,然后用出现“发票”历史信息条数的数量/所有拦截的历史信息条数就是该概率值,P(Fn|C2)就是用出现“发票”历史信息条数的数量/所有审核通过的历史信息条数就是该概率值。
对于待审信息来说,获取其中的实现特征Fn,再通过公式来判断每条信息属于每个类别的概率,分析属于审核通过与审核不通过的概率,将概率较大的一方作为审核结果输出至处理模块。若该待审信息为审核通过的信息,则处理模块输出该待审信息;若该待审信息为审核未通过的信息,则处理模块拦截该待审信息。
本公开的另一方面,还提供了一种信息审核方法,图4为本公开实施例的信息审核方法的步骤示意图。如图4所示,该信息审核方法包括:
步骤S1:对待审信息进行预处理,得到预处理信息;
其中,预处理可以包括以下步骤:乱码检测、垃圾字符剔除、繁简转化、拼音转化和语义分析。其中,所述乱码检测指检测该待审信息是否全为乱码,若是,则该待审信息作为审核未通过的信息输出至处理模块,若不是,则去除该待审信息中的扰码;所述语义分析指使用领域词库,对预设词语进行扩展和替换;所述垃圾字符剔除指合并待测信息中多余的空格;以及剔除没有实质意义的停用词或者符号;所述文本标准化将待测信息中的繁体字转换为简体字;全角字符转换为半角字符;以及替换常见的敏感词。
步骤S2:设置与历史信息的已接收天数成反向关系的时间因子,将该时间因子作为权重值,固化在该贝叶斯分类器中,构建贝叶斯审核模型,并根据所述贝叶斯审核模型对所述预处理信息进行审核,其中,所述历史信息指审核后的信息;
更进一步地,所述贝叶斯审核模型的构建还可以包括步骤:
对预处理数据进行分词、词性标注和去除停用词,通过计算特征T和历史信息的分类Ci的互信息选取MI(T;Ci)大于第一阈值的特征T作为实现单元的实现特征F,其中,i取1或者2,分类Ci包括审核通过的历史信息C1与审核未通过的历史信息C2。分类的具体操作为:
根据公式将Y(MI)=1的历史信息划分为C1,将Y(MI)=0的历史信息划分为C2,其中,thrd为第一阈值。
步骤S3:输出审核通过的信息,以及拦截审核未通过的信息。
为了多重审核,以保证信息审核的准确性,具体可以参照之前描述,此处对审核的步骤简单说明,所述审核还可以包括步骤:
基于DFA算法构建敏感词过滤词库,基于多模式模糊识别与精确(敏感词)识别算法,识别预处理信息中是否包含敏感词过滤词库中的敏感词,若不包含,则该预处理信息输出至贝叶斯审核模型,若包含,则该预处理信息作为审核未通过的信息输出至处理模块;
分析历史信息的特点,构建基于CRF的名称识别模型实现信息中的名称的替换;对替换后的信息采用基于HMM模型的分词器进行分词,抽取其中的主干;对主干进行MD5编码,根据主干的MD5编码以及审核未通过的历史信息,构建Hashmap;以及对预处理信息进行MD5编码,判断所述预处理信息的MD5编码是否能在该Hashmap中找到,若不能找到,则该预处理信息输出至贝叶斯审核模型,若能找到,则该预处理信息作为审核被拦截;
最后待审数据输出至贝叶斯审核模型,需要注意的是,具有时间因子作为权重值的贝叶斯分类器,处理信息时都加入了时间因子的影响。
所述贝叶斯审核模型对待测信息中的至少一个实现特征Fn进行审核,得到实现特征Fn在分类Ci中的概率其中,j为正整数,且小于等于n,其中,n为正整数,
若则该待审信息为审核通过的信息;
若则该待审信息为审核未通过的信息。其过程与前述贝叶斯模型的审核过程类似,此处不再赘述。
此外,为了能够更新审核模型,进一步地提高审核模型的时效性,还可以包括更新贝叶斯审核模型的步骤:在每一天的预定时间(非高峰时间,例如凌晨和午休数据),剔除历史信息中超过规定时间(例如半年)的部分,得到规定历史信息(半年内接收到的信息),以生成新的训练语料,根据规定历史信息的时间因子,按照前述步骤,对规定历史信息进行训练,构建更新后的贝叶斯审核模型。待更新后的模型生成完成,切换正在运行的模型,这一过程线上完成,不需要任何线下操作和人力维护成本,有效地提高了效率。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (13)
1.一种信息审核装置,包括:
预处理模块,用于对接收的待审信息进行预处理,得到预处理信息;
审核模块,包括贝叶斯分类器,该审核模块用于设置与历史信息的已接收天数成反向关系的时间因子,将该时间因子作为贝叶斯分类器的权重值,构建贝叶斯审核模型,并根据所述贝叶斯审核模型对所述预处理信息进行审核,其中,所述历史信息指审核后的信息,其中,时间因子公式为:f(x)=1+1/(x+1),其中x代表历史信息被用户接收的日期与当前日期的距离天数;以及
处理模块,用于输出审核通过的信息,以及拦截审核未通过的信息。
2.根据权利要求1所述的信息审核装置,其中,所述贝叶斯分类器还用于在每一天的预定时间,剔除历史信息中超过规定时间的部分,得到规定历史信息,根据规定历史信息的时间因子,构建更新后的贝叶斯审核模型。
3.根据权利要求1所述的信息审核装置,所述审核模块还包括:
敏感词审核单元,用于基于DFA算法构建敏感词过滤词库,基于多模式模糊识别与敏感词识别算法,识别预处理信息中是否包含敏感词过滤词库中的敏感词,若不包含,则该预处理信息输出至贝叶斯审核模型,若包含,则该预处理信息作为审核未通过的信息输出至处理模块;以及
泛化模板审核单元,用于分析历史信息的特点,构建基于CRF的名称识别模型实现信息中的名称的替换;对替换后的信息采用基于HMM模型的分词器进行分词,抽取其中的主干;对主干进行MD5编码,根据主干的MD5编码以及审核未通过的历史信息,构建Hashmap;以及用于对预处理信息进行MD5编码,判断所述预处理信息的MD5编码是否能在该Hashmap中找到,若不能找到,则该预处理信息输出至贝叶斯审核模型,若能找到,则该预处理信息作为审核未通过的信息输出至处理模块。
4.根据权利要求1所述的信息审核装置,所述预处理模块包括:
乱码检测单元,用于检测该待审信息是否全为乱码,若是,则该待审信息作为审核未通过的信息输出至处理模块,若不是,则去除该待审信息中的扰码;
语义分析单元,用于使用领域词库,对待审信息中的预设词语进行扩展和替换;
垃圾字符剔除单元,用于合并待测信息中多余的空格;以及剔除没有实质意义的停用词或者符号;以及
文本标准化单元,用于将待测信息中的繁体字转换为简体字;全角字符转换为半角字符;以及替换常见的敏感词。
5.根据权利要求1至4中任一所述的信息审核装置,其中,所述贝叶斯分类器包括特征选择单元和实现单元,其中,
特征选择单元,包括对历史信息进行分词、词性标注和去除停用词的HMM模型的分词器,用于通过计算历史信息中的特征T和历史信息的分类Ci的互信息MI(T;Ci),选取MI(T;Ci)大于第一阈值的特征T作为实现单元的实现特征F,其中,i取1或者2,分类Ci包括审核通过的历史信息C1与审核未通过的历史信息C2;
实现单元,用于根据所述贝叶斯审核模型对预处理信息中的实现特征进行审核,得到实现特征Fn在分类Ci中的概率其中,j为正整数,且小于等于n,其中,n为正整数,
若则该待审信息为审核通过的信息;
若则该待审信息为审核未通过的信息。
6.根据权利要求5所述的信息审核装置,其中,根据公式:和将Y(MI)=1的历史信息划分为C1,将Y(MI)=0的历史信息划分为C2,其中,thrd为第一阈值。
7.一种信息审核方法,包括:
对待审信息进行预处理,得到预处理信息;
设置与历史信息的已接收天数成反向关系的时间因子,将该时间因子作为权重值,构建贝叶斯审核模型,并根据所述贝叶斯审核模型对所述预处理信息进行审核,其中,所述历史信息指审核后的信息,其中,时间因子公式为:f(x)=1+1/(x+1),其中x代表历史信息被用户接收的日期与当前日期的距离天数;以及
输出审核通过的信息,以及拦截审核未通过的信息。
8.根据权利要求7所述的信息审核方法,其中,还包括更新贝叶斯审核模型的步骤:在每一天的预定时间,剔除历史信息中超过规定时间的部分,得到规定历史信息,根据规定历史信息的时间因子,构建更新后的贝叶斯审核模型。
9.根据权利要求7所述的信息审核方法,其中,所述审核还包括步骤:
基于DFA算法构建敏感词过滤词库,基于多模式模糊识别与敏感词识别算法,识别预处理信息中是否包含敏感词过滤词库中的敏感词,若不包含,则该预处理信息输出至贝叶斯审核模型,若包含,则该预处理信息作为审核未通过的信息输出至处理模块;以及
分析历史信息的特点,构建基于CRF的名称识别模型实现信息中的名称的替换;对替换后的信息采用基于HMM模型的分词器进行分词,抽取其中的主干;对主干进行MD5编码,根据主干的MD5编码以及审核未通过的历史信息,构建Hashmap;以及对预处理信息进行MD5编码,判断所述预处理信息的MD5编码是否能在该Hashmap中找到,若不能找到,则该预处理信息输出至贝叶斯审核模型,若能找到,则该预处理信息作为审核被拦截。
10.根据权利要求7至9中任一所述的信息审核方法,所述预处理包括:
乱码检测,检测该待审信息是否全为乱码,若是,则该待审信息作为审核未通过的信息输出至处理模块,若不是,则去除该待审信息中的扰码;以及
语义分析,使用领域词库,对待审信息中的预设词语进行扩展和替换;
垃圾字符剔除,合并待测信息中多余的空格;以及剔除没有实质意义的停用词或者符号;以及
文本标准化,将待测信息中的繁体字转换为简体字;全角字符转换为半角字符;以及替换常见的敏感词。
11.根据权利要求7所述的信息审核方法,其中,所述贝叶斯审核模型的构建还包括步骤:
对历史信息进行分词、词性标注和去除停用词,通过计算历史信息中的特征T和历史信息的分类Ci的互信息MI(T;Ci),选取MI(T;Ci)大于第一阈值的特征T作为实现单元的实现特征F,其中,i取1或者2,分类Ci包括审核通过的历史信息C1与审核未通过的历史信息C2。
12.根据权利要求11所述的信息审核方法,其中,根据公式:和将Y(MI)=1的历史信息划分为C1,将Y(MI)=0的历史信息划分为C2,其中,thrd为第一阈值。
13.根据权利要求12所述的信息审核方法,其中,根据所述贝叶斯审核模型对所述预处理信息进行审核,包括步骤:
得到实现特征Fn在分类Ci中的概率其中,j为正整数,且小于等于n,其中,n为正整数,
若则该待审信息为审核通过的信息;
若则该待审信息为审核未通过的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710644323.8A CN107483420B (zh) | 2017-07-31 | 2017-07-31 | 信息审核装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710644323.8A CN107483420B (zh) | 2017-07-31 | 2017-07-31 | 信息审核装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107483420A CN107483420A (zh) | 2017-12-15 |
CN107483420B true CN107483420B (zh) | 2019-12-24 |
Family
ID=60598180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710644323.8A Active CN107483420B (zh) | 2017-07-31 | 2017-07-31 | 信息审核装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107483420B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520460A (zh) * | 2018-03-26 | 2018-09-11 | 平安普惠企业管理有限公司 | 业务数据测算处理方法、装置、计算机设备和存储介质 |
CN109508454B (zh) * | 2018-10-09 | 2023-04-18 | 北京百悟科技有限公司 | 一种短信审核方法及装置 |
CN111581344B (zh) * | 2020-04-26 | 2024-07-23 | 腾讯科技(深圳)有限公司 | 一种接口信息审核方法、装置、计算机设备及存储介质 |
CN116095619A (zh) * | 2022-12-30 | 2023-05-09 | 天翼物联科技有限公司 | 一种基于朴素贝叶斯算法的行业短信通道自选择方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101496010A (zh) * | 2006-07-31 | 2009-07-29 | 微软公司 | 使用可增量式更新的、经修改的朴素贝叶斯查询分类器的排序功能 |
CN101996241A (zh) * | 2010-10-22 | 2011-03-30 | 东南大学 | 一种基于贝叶斯算法的内容过滤方法 |
CN102098332A (zh) * | 2010-12-30 | 2011-06-15 | 北京新媒传信科技有限公司 | 一种内容审核方法和装置 |
US8725732B1 (en) * | 2009-03-13 | 2014-05-13 | Google Inc. | Classifying text into hierarchical categories |
-
2017
- 2017-07-31 CN CN201710644323.8A patent/CN107483420B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101496010A (zh) * | 2006-07-31 | 2009-07-29 | 微软公司 | 使用可增量式更新的、经修改的朴素贝叶斯查询分类器的排序功能 |
US8725732B1 (en) * | 2009-03-13 | 2014-05-13 | Google Inc. | Classifying text into hierarchical categories |
CN101996241A (zh) * | 2010-10-22 | 2011-03-30 | 东南大学 | 一种基于贝叶斯算法的内容过滤方法 |
CN102098332A (zh) * | 2010-12-30 | 2011-06-15 | 北京新媒传信科技有限公司 | 一种内容审核方法和装置 |
Non-Patent Citations (2)
Title |
---|
《多维度垃圾短信实时过滤技术的研究》;秦彦国;《万方学位论文》;20100531;第33页4-5行、34页2-10行、第36页1-4行、37页1-6行、15-16行、第37页第9-16行、参见38页第8-10行、第39页第18-19行、第40页第1-4行,图4.4、4.6、4.8 * |
《贝叶斯分类在垃圾短信过滤中的应用》;葛广为;《中国优秀硕士学位论文全文数据库信息科技I辑》;20161231;第15页第19-27行、第23页3-15行、第33页第4行,第34页1-4行、第35页1-5行、36页1-5行、第39页1-6行,图4.2、4.3 * |
Also Published As
Publication number | Publication date |
---|---|
CN107483420A (zh) | 2017-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230222366A1 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN107943941B (zh) | 一种可迭代更新的垃圾文本识别方法和系统 | |
CN107483420B (zh) | 信息审核装置及方法 | |
Ismail et al. | Efficient E‐Mail Spam Detection Strategy Using Genetic Decision Tree Processing with NLP Features | |
US20200159993A1 (en) | Methods, devices and systems for data augmentation to improve fraud detection | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN111767716A (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
WO2021098651A1 (zh) | 一种风险实体获取方法及装置 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN109446299A (zh) | 基于事件识别的搜索电子邮件内容的方法及系统 | |
CN111753547B (zh) | 一种用于敏感数据泄露检测的关键词提取方法及系统 | |
Suhasini et al. | A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data | |
CN108717637B (zh) | 一种电商安全相关实体的自动挖掘方法及系统 | |
CN109873755A (zh) | 一种基于变体词识别技术的垃圾短信分类引擎 | |
Arbaatun et al. | Hate speech detection on Twitter through Natural Language Processing using LSTM model | |
Li et al. | A Vector Space Model based spam SMS filter | |
Wang et al. | A multi-level approach to highly efficient recognition of Chinese spam short messages | |
Zhang et al. | A BERT-GCN-Based Detection Method for FBS Telecom Fraud Chinese SMS Texts | |
Nyamathulla et al. | SMS spam detection with deep learning model | |
Fan et al. | Research on spam message recognition algorithm based on improved naive Bayes | |
CN113051396A (zh) | 文档的分类识别方法、装置和电子设备 | |
CN111666412A (zh) | 一种基于svm文本分析的诈骗日志文本分析方法与系统 | |
CN112133308A (zh) | 一种用于语音识别文本多标签分类的方法和装置 | |
Mayasari et al. | Post-Election Sentiment Analysis 2024 via Twitter (X) Using the Naive Bayes Classifier Algorithm | |
Agarwal et al. | Predictive sentimental analysis of spam detection using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |