CN107612893A

CN107612893A - 短信的审核系统和方法以及构建短信审核模型方法

Info

Publication number: CN107612893A
Application number: CN201710778882.8A
Authority: CN
Inventors: 孙振江; 刘豹; 陈钰; 柯锦灿
Original assignee: Beijing Hundred Enlightenment Technology Co Ltd
Current assignee: Beijing Hundred Enlightenment Technology Co Ltd
Priority date: 2017-09-01
Filing date: 2017-09-01
Publication date: 2018-01-19
Anticipated expiration: 2037-09-01
Also published as: CN107612893B

Abstract

一种短信的审核系统和方法以及构建短信审核模型方法，该审核系统包括URL检测模块、纠错匹配模块、URL黑白名单模块、URL内容模块、实时抓取模块、审核模型、模型训练模块和后台管理模块。该审核方法是通过爬虫技术对短信中的URL进行实时抓取，再结合短信内容和网页内容同时进行建模，通过机器学习算法对待审核短信内容的性质进行分类，最终确定短信是需要放行还是拦截。本发明比传统的根据短信内容和URL本身进行审核方法相比准确度大幅提升，尤其是在审核通过短URL服务缩短了的URL，传统的方式只能一刀切，而本发明可以根据跳转后的不同URL进行个性化审核。

Description

短信的审核系统和方法以及构建短信审核模型方法

技术领域

本发明涉及信息审核领域，特别是涉及一种短信的审核系统和方法以及构建短信审核模型方法，即在一段信息中包含URL链接这类可跳转信息的审核系统和方法以及构建短信审核模型方法。

背景技术

近几年我国智能移动电话的使用人数以超乎想象的速度增长，并且由于智能电话的一些本质特点造成了人们在使用习惯上的巨大变化，例如之前在使用非智能电话时，如果企业用户需要将一个网站地址发送到个人手机上让用户点击就可以打开则只能使用WAPPUSH技术，如果使用短信技术，那么收到短信的用户只能复制链接地址到浏览器中再去打开。

由于WAP PUSH自身使用习惯以及设备支持的原因，虽然几乎目前所有的短信网关都能支持，但这种技术经过十几年的发展一直没有被市场接受，相反随着智能手机的普及，短信中的URL地址点击即可打开网页的功能被迅速普及推广了起来(甚至在智能手机中多数已经不再支持WAP PUSH功能)，对手机用户而言这确实是一项非常方便和人性化的功能，也改变了人们对短信发送URL链接这种场景的应用。

例如，常见带URL短信的应用场景有：

1、在通知短信中发送网站地址，如：【XX】为保障后续服务，已为您创建账号，您可以选择动态密码登录XX网(手机访问：http：//t.cn/ZtG0V2G)查询相关订单，祝您XX愉快，客服电话XXXX-XXX-XXX。回复TD退订；

2、在会员营销短信中发送活动地址，如：尊敬的XXXX用户，2017款GL82.0T自动豪华版目前未上市，官方指导价尚未公布。如需进一步了解详情，请访问http：//t.cn/RtWCcw6R。【XX】；

3、在家校通作业中发送作业图片地址，如：各位家长：我现在把预习步骤发给你们看看，每一课都按这样的步骤预习。读课文都要标“正”字，签名。谢谢合作！[图片附件]：http：//211.140.7.29：3005/mobile/pull/f/Y7ramq；/XXX【教育-XX县XXXXX中心小学】回复TD退订【XXX】；

4、在短信中发送APP下载地址，如：【XXX】亲爱的1********9，您参与的XXXXX期“小熊(Bear)3L趋零辐射静音细雾香薰加湿器商品”马上要揭晓了，下载XXXapp，在个人中心>参与记录中查看详情，下载网址：http：//2bai.co/969644；

以上只是一些典型应用，实际上带URL的短信应用已经越来越多，而内容也是五花八门，随着这种应用方式的普及，也对目前的信息审核管理带来了严峻的考验：由于URL存在一定的隐蔽性，具体URL后方指向的网页地址在短信内容中无从得知，甚至由于短信字数有限制的特性，在短信中出现的URL多数都是短地址，都是经过专业的短URL服务缩短了的，并且即使是相同的内容，每一条短信中发送的URL也可以做到不同，如例子中的t.cn，导致查URL地址库的方式已经无法胜任。这些问题都给给信息审核带来了难度，造成信息审核的风险大大提升。

在传统的信息审核方法中，往往将URL或URL中的部分信息放入到地址库中，当下发短信内容中包括URL地址库中的信息时，则按照库中记录的结果放行或者拦截，但是这种审核方法因为短URL服务这种业务的出现已经几乎无法正常工作，例如上文例子中的http：//t.cn/ZtG0V2G和http：//2bai.co/969644之类的短URL，本身域名不具备特征要素，而后面的部分又是随机产生的，所以在传统的信息审核系统中这些短信要么全部被拦截，要么全部被放行，最终导致URL审核模块形同虚设。

还有一种最笨的方法就是有人工审核模块的短信网关会将包含URL关键字的短信让信审人员人工审核，审核的依据就是下发内容结合URL打开后的内容来综合评判，但是依靠人工来实现的方式需要大量的人力物力，同时大大增加了短信的延时，增加了公司的运营成本。

发明内容

(一)要解决的技术问题

有鉴于此，本发明提供一种带URL短信的审核系统和方法以及构建短信审核模型方法，用以解决上述问题。

(二)技术方案

一种带URL短信的审核系统，包括：实时抓取模块，用于通过爬虫程序对待审核带URL短信中的URL进行抓取，得到待审核带URL短信的URL对应的网页内容，并将网页内容进行处理得到网页内容特征关键词；审核模型模块，用于将所述网页内容特征关键词和通过对所述待审核带URL短信的短信内容进行分词提取得到的短信内容特征关键词结合，并输入审核模型经过模型计算得到待审核带URL短信的审核类型结果，然后将待审核带URL短信发送通道的允许发送类型和审核类型结果进行比较，得到审核通过或拦截的结果；其中，所述审核模型是预先通过模型训练模块获取已审核带URL短信的短信内容特征关键词、URL对应的网页内容特征关键词和审核标记类型结果，并利用所述已审核带URL短信的短信内容特征关键词、URL对应的网页内容特征关键词和审核标记类型结果通过机器学习的方式进行建模而得到的。

在本发明一些示例性实施例中，在实时抓取模块之前还包括URL检测模块，用于检测待审核短信是否包含URL，如果不包含则得到无需URL审核的结果，如果包含URL则提取出URL、短信内容及发送通道允许发送类型，并将其输入与之连接的下一模块。

在本发明一些示例性实施例中，在URL检测模块和实时抓取模块之间还包括URL内容模块，所述URL内容模块包括URL内容库，所述URL内容库保存有模型训练模块和实时抓取模块获得的所有URL对应的网页内容特征关键词，所述URL内容模块在URL内容库中匹配所述URL检测模块提取的URL所对应的网页内容特征关键词，如果URL内容库中包含有所述URL对应的网页内容特征关键词，则将所述网页内容特征关键词输入所述审核模型模块，否则将所述URL输入实时抓取模块。

在本发明一些示例性实施例中，在所述URL检测模块和URL内容模块之间还包括纠错匹配模块和/或URL黑白名单模块，所述纠错匹配模块和URL黑白名单模块位置不分先后；其中：纠错匹配模块，接收所述URL检测模块提取的短信内容，将短信内容进行处理，得到短信内容特征关键词，将所述短信内容特征关键词与缓存的纠错短信进行相似度匹配，若相似度超过一定阈值且发送通道允许发送类型一致，则按照纠错短信的审核结果进行拦截或放行，否则将短信内容特征关键词输入与之连接的下一模块；URL黑白名单模块，包括URL黑白名单库，接收所述URL检测模块提取的URL，将所述URL与URL黑白名单库中的URL地址进行比对，若所述URL包含在URL黑白名单库中，则根据比对结果和发送通道允许发送类型得到审核通过或拦截的结果，否则进入URL内容模块。

在本发明一些示例性实施例中，还包括后台管理模块，用于将URL地址放入URL黑白名单库，对审核模型模块的审核结果进行纠错，并将纠错短信保存至纠错匹配模块和模型训练模块；所述模型训练模块利用所述纠错短信定时进行训练，更新所述审核模型。

在本发明一些示例性实施例中，所述纠错匹配模块用于将短信内容进行分词，并利用NLP自然语言分析技术和TF-IDF算法提取特征关键词得到短信内容特征关键词；所述实时抓取模块用于将网页内容进行分词，并利用NLP自然语言分析技术和TF-IDF算法提取特征关键词得到网页内容特征关键词。

一种构建短信审核模型的方法，包括：S1：获取多条已审核带URL的短信和对应的审核标记类型结果；S2：通过爬虫技术对已审核带URL短信中的URL进行抓取，获得相应的网页内容；S3：将已审核带URL短信的短信内容和网页内容进行分词并提取特征关键词，已审核带URL短信的短信内容特征关键词、网页内容特征关键词和审核标记类型结果构成数据样本；S4：将数据样本按比例分为训练集和测试集；S5：通过机器学习算法对训练集进行训练，生成审核模型，并利用测试集测试审核模型，获得训练完成的审核模型。

在本发明一些示例性实施例中，所述步骤S2进一步包括：S21：从已审核带URL短信的短信内容中提取URL，插入到爬虫爬取任务列表中；S22：爬虫程序从爬取任务列表中读取URL，并且抓取相应的网页内容。

一种带URL短信的审核方法，包括：A1：提取出待审核带URL短信的URL、发送通道允许发送的类型和短信内容，并将待审核带URL短信的短信内容进行分词和提取特征关键词；A2：通过爬虫技术对待审核带URL短信的URL进行抓取获得对应的网页内容，并对网页内容进行分词和提取特征关键词，或者在URL内容库中匹配该URL所对应的网页内容特征关键词；A3：将待审核带URL短信的短信内容特征关键词和网页内容特征关键词结合，并输入到如上述所构建的审核模型中，由审核模型对待审核短信进行模型计算得到待审核带URL短信的审核类型结果；A4：根据待审核带URL短信的发送通道允许发送的短信类型和所述审核类型结果进行比较，做出审核通过或者审核拦截的决策。

在本发明一些示例性实施例中，步骤A1和A2中的待审核带URL短信的短信内容和网页内容的特征关键词提取采用NLP自然语言分析技术和TF-IDF算法实现；步骤A3中的短信内容特征关键词和网页内容特征关键词的结合采用固定总量自适应权重的结合算法，具体包括以下步骤：A31：通过分词技术对相应文本进行分词；A32：针对分词进行词性标记，并过滤掉对短信审核无实际意义的词；A33：使用TF-IDF算法对网页内容特征关键词按照重要性进行排序，取前n个关键词与短信内容一起进行计算；A34：网页内容特征关键词n的取值通过自适应权重算法确定，算法设定最小值为a，最大值为b，假设短信内容中的特征关键词为x个，则网页内容特征关键词数量为n＝max(a，20-b)。

一种短信的审核方法，包括：B1：检测待审核短信是否包含URL，如果不包含则返回无需URL审核，如果包含则提取出待审核短信的URL、发送通道允许发送的类型和短信内容，进入步骤B2；B2：将待审核短信的短信内容进行分词并提取特征关键词，与纠错短信进行相似度匹配，相似度超过一定阈值并且通道类型一致的按照纠错短信的审核结果进行操作，否则进入步骤B3；B3：将提取出的待审核短信的URL与URL黑白名单库中的地址进行比对，如果包含在URL黑白名单库中则按照相应发送通道类型和审核操作进行拦截或者放行，否则进入步骤B4；B4：在URL内容库中匹配该待审核短信的URL所对应的网页内容特征关键词，如果URL内容库中包含有该URL的网页信息，则提取所述URL对应的网页内容的特征关键词，直接进入步骤B6，否则进入步骤B5；B5：通过爬虫技术对待审核短信的URL进行抓取获得对应的网页内容，并对网页内容进行分词和提取特征关键词；B6：将待审核短信的短信内容特征关键词和网页内容特征关键词结合，并输入到上述所构建的审核模型中，由审核模型进行模型计算得到待审核短信的审核类型结果；B7：根据待审核短信的发送通道允许发送的短信类型和所述审核类型结果进行比较，做出审核通过或者审核拦截的决策。

在本发明一些示例性实施例中，步骤B2和B5中的短信内容和网页内容的特征关键词提取采用NLP自然语言分析技术和TF-IDF算法实现；步骤B6中的短信内容特征关键词和网页内容特征关键词的结合采用固定总量自适应权重的结合算法，具体包括以下步骤：B61：通过分词技术对相应文本进行分词；B62：针对分词进行词性标记，并过滤掉对短信审核无实际意义的词；B63：使用TF-IDF算法对网页内容特征关键词按照重要性进行排序，取前n个关键词与短信内容一起进行计算；B64：网页内容特征关键词n的取值通过自适应权重算法确定，算法设定最小值为a，最大值为b，假设短信内容中的特征关键词为x个，则网页内容特征关键词数量为n＝max(a，20-b)。

一种带URL短信的审核系统，包括：存储器，用于存储处理器执行的程序；处理器，用于执行上述的短信审核方法。

在本发明一些示例性实施例中，所述处理器在执行上述的短信审核方法之前，还执行了上述的构建短信审核模型的方法。

(三)有益效果

1、本发明比传统的根据短信内容和URL本身进行审核的方法相比准确度大幅提升，尤其是在审核通过短URL服务缩短了的URL，传统的方式只能一刀切，而本发明可以根据跳转后的不同URL进行个性化审核；

2、本发明与传统的URL比对方法相比，对通道允许下发类型和短信类型有了分类和比较，可以更加精细化的进行审核拦截和放行；

3、本发明与传统的人工审核方法相比，在具有审核准确度相差不大的情况下，具有审核效率高、审核延时小、审核成本低等压倒性优势；

4、本发明使用了NLP自然语言分析和机器学习算法，对短信内容审核的泛化和抗噪效果有很大提升，具备较高的自然语言理解能力和智能化程度；

5、本发明后端管理模块可以对已审核数据进行管理和纠错，让智能审核系统能实时学习，并且能根据短信及URL内容的变化而自我进化。

附图说明

图1是本发明实施例的一种带URL短信的审核系统结构示意图。

图2是本发明实施例的构建短信审核模型的方法流程图。

图3是本发明实施例的构建短信审核模型的方法步骤图。

图4本发明实施例的一种带URL短信的审核方法流程图。

图5是本发明另一实施例的一种带URL短信的审核方法流程图。

图6是本发明另一实施例的一种带URL短信的审核方法步骤图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明第一实施例提供一种带URL短信的审核系统，系统对外提供信息审核接口，当接口接收到审核请求时进入审核过程，并根据审核结果返回审核通过、审核驳回或无需URL审核三种结果之一。带URL短信的审核系统包括URL检测模块、纠错匹配模块、URL黑白名单模块、URL内容模块、实时抓取模块、审核模型模块、模型训练模块和后台管理模块，各模块之间的结构如图1所示。

URL检测模块用于检测待审核短信是否包含URL，如果不包含则返回无需URL审核，如果包含URL则提取出完整URL、发送通道允许发送类型及短信内容并进入纠错匹配模块，。

纠错匹配模块用于将短信内容进行分词，并提取特征关键词，同时检测缓存的纠错短信，如果纠错缓存中存在与本条短信特征关键词相似度超过一定阈值的纠错短信，并且短信通道类型一致的，则按照纠错缓存的审核结果进行操作，审核驳回或通过；否则进入URL黑白名单模块，可将短信内容特征关键词直接输入审核模型模块，或输入URL黑白名单模块，再经过URL内容模块、实时抓取模块最后输入审核模型模块。纠错匹配模块中缓存的纠错短信通过后台管理模块进行实时更新。

URL黑白名单模块包含有URL黑白名单库，URL黑白名单库存储有已审核的URL地址，URL白名单即为审核通过的所有URL地址，URL黑名单即为审核驳回的所有URL地址。当需要审核的URL内容较单一时可以通过添加URL黑白名单的方式来提升审核效率和审核及时度，例如背景案例中家校通业务中的URL：http：//211.140.7.29：3005/mobile/pull/f/Y7ramq，其中前面通用部分http：//211.140.7.29：3005/mobile/pull/为内部某文件上传服务器，由于该URL性质及用途单一可信，则可以将这部分的URL加入到URL白名单中，用于加快审核效率，URL黑白名单库中URL地址通过后台管理模块进行实时更新。

URL黑白名单模块将URL检测模块提取出的待审核短信中的URL与URL黑白名单库进行比对，检测提取出的URL中是否包含在URL黑白名单库中的地址，如果包含则按照黑白名单库的相应通道类型和审核操作则进行拦截或者放行，如果包含在黑名单中，则进行拦截，如果包含在白名单中，并且符合发送通道允许发送的类型，则审核通过，如果没有匹配的URL则进入URL内容模块。

纠错匹配模块和URL黑白名单模块的先后位置可以互换，即URL检测模块提取出完整URL、发送通道允许发送类型及短信内容后，可先进入URL黑白名单模块，若没有匹配的URL，则进入纠错匹配模块检测纠错缓存，若没有相似的纠错短信，则进入URL内容模块。

URL内容模块包括URL内容库，URL内容库(HBase数据库)缓存有历史抓取的所有URL所对应的网页特征关键词，URL内容库中的特征数据可通过实时抓取模块进行实时更新。

对于不在黑白名单中的URL，首先进入URL内容模块，查询URL内容库，匹配该URL所对应的特征关键字，如果查得到相应的URL，则提取对应的网页内容特征关键词，跳过实时抓取模块直接进入审核模型模块。如果URL内容库中查询不到相应的URL则进入实时抓取模块。

实时抓取模块用于通过爬虫程序对该待审核短信中的URL进行实时抓取，得到相应的网页内容，并提取网页特征关键词。实时抓取模块将URL放入爬虫程序抓取列表，爬虫程序异步抓取，抓取完成后对网页内容进行分词，并通过NLP自然语言分析技术和TF-IDF算法(term frequency-inverse document frequency)提取特征关键词。最后将得到的网页内容特征关键词插入到URL内容库(HBase数据库)中，并且更新列表状态和特征数据。

审核模型模块包括通过机器学习的方式对历史所有带有URL的短信内容和网页内容以及人工审核标记类型结果进行建模所得出的短信审核模型，审核模型用于通过待审核短信的短信内容和URL对应的网页内容对待审核短信进行分类，得到审核分类结果，即待审核短信的审核类型结果。审核模型模块将短信内容和网页内容的特征关键词进行结合，输入审核模型可得出本条短信的业务类别。最后根据通道允许发送的短信类型和实际短信类型比较，做出审核通过或者审核拦截的决策。

模型训练模块，用于在系统运行之前通过机器学习的方式对历史所有已审核的带URL的短信内容、URL对应的网页内容和短信审核标记类型结果进行建模，获得训练完成的审核模型。

后台管理模块，可供信息审核管理人员对信息审核结果做管理维护工作，例如抽取典型URL地址放入黑白名单库、对智能审核结果做出纠错等；针对管理人员URL黑白名单管理的内容，实时在URL黑白名单模块生效；针对管理人员审核纠错的内容，实时在纠错匹配模块生效，手动纠错针对相同通道的短信，具备一定的泛化能力，同时也具备了实时动态学习的能力；针对管理人员审核纠错的内容，系统定时自动按照原定训练参数对审核模型定时训练，自动更新审核系统的审核模型，使得本系统拥有了自我进化的能力。

在本发明一些其他实施例中还可以包括分词提取模块，用于对短信内容和网页内容进行分词，并通过NLP自然语言分析技术和TF-IDF算法提取特征关键词。在进入纠错匹配模块前可直接调用该分词提取模块对短信内容进行分词以及提取特征关键词，纠错匹配模块直接进行纠错匹配；在实时抓取模块抓取URL对应的网页内容后也可直接调用该分词提取模块对网页内容进行分词以及提取特征关键词。

缓存匹配模块、实时抓取模块或分词提取模块中涉及到短信内容和网页内容的特征关键词提取，本发明实施例是采用了NLP自然语言分析技术和TF-IDF算法实现特征关键词提取。而在审核模型模块中短信内容特征关键词和网页内容特征关键词的结合采用了固定总量自适应权重的结合算法，具体为：通过分词技术对相应文本进行分词；针对分词进行词性标记，并过滤掉针对短信内容来讲意义不大的词性，如：连词、叹词、助词、数词、量词、拟声词等大量对信息审核无实际意义的词都要抛弃不用；针对网页内容分词后可能会有很多特征关键词的情况，使用TF-IDF算法对特征关键词按照重要性进行排序，取前n个关键词与短信内容一起进行计算；网页内容特征关键词n的取值通过自适应权重算法确定，算法设定最小值为a，最大值为b，假设短信内容中的特征关键词为x个，则网页内容关键词数量n＝max(a，20-b)，实际使用中，最小值a＝5，b＝20，这样一来，使得整体特征关键词的数量保持在一条正常短信的范围内，同时也可以自适应短信内容和网页内容的特征关键词的权重占比，使得审核更加合理。

上述实施例只是本发明较优选地方案，在本发明一些其他实施例中，短信审核系统可以不包括纠错匹配模块、URL黑名单模块、URL内容模块或后台管理模块。URL检测模块提取出待审核短信的URL、发送通道允许发送的类型及短信内容后，可将短信内容进行分词提取后直接输入模型训练模块。待审核短信的URL可直接输入至URL内容模块或实时抓取模块。各模块之间的连接关系不固定，可根据短信审核系统包含的模块种类进行调整。

本发明第二实施例提供一种构建短信审核模型的方法，在短信审核之前需要先通过机器学习的方式对历史所有带URL的短信、对应URL的网页内容和审核标记类型结果进行建模，建模过程如附图2和图3所示，包括以下步骤：

步骤S1：获取多条已审核带URL短信的URL和对应的审核标记类型结果。

从历史人工审核数据库中提取历史所有已审核的带有URL的短信内容和后台管理模块中管理人员纠错的短信内容，同时提取短信内容、发送通道以及审核标记类型结果；

步骤S2：通过爬虫技术对已审核带URL短信中的URL进行抓取，获得相应的网页内容。

步骤S2包括以下子步骤：

S21：从短信内容中提取URL，插入到爬虫爬取任务列表中；

S22：通用爬虫程序从爬取任务列表中读取URL，并且抓取相应的网页内容；

步骤S3：将已审核带URL短信的短信内容和网页内容进行分词并提取特征关键词，已审核带URL短信的短信内容特征关键词、网页内容特征关键词和审核标记类型结果构成数据样本。

通过分词技术对短信内容和网页内容分别进行分词，并且使用NLP自然语言分析技术和自适应权重算法进行特征关键词提取，同时对纠错短信特征项的分类概率进行了一定倍率的放大，并将URL对应的网页内容的特征关键词保存到URL内容库(HBase数据库)中；

步骤S4：将数据样本按比例分为训练集和测试集。

按照8∶2的比例对上述的数据样本随机抽取，分别构建训练集和测试集；

步骤S5：通过机器学习算法对训练集进行训练，生成审核模型，并利用测试集测试审核模型，获得训练完成的审核模型。

步骤S5包括以下子步骤：

子步骤S51：通过机器学习算法对训练集进行训练，生成审核模型，本发明使用了机器学习算法中的朴素贝叶斯方法，也可以选择决策树算法、支持向量机算法和逻辑回归等其他算法，朴素贝叶斯算法的优点是计算速度快、开销小，不易陷入过拟合比较适合。本发明实施例利用审核标记类型结果进行有监督的训练，将短信内容特征关键词、网页内容特征关键词、审核标记类型结果、审核纠错特征关键词和纠错分类结果结合，计算每一个特征关键词对应不同分类的概率值，具体包括：

(1)对训练数据集中的特征关键词和审核标记结果进行统计，以确定每个类别出现的概率和每个特征值对应类别的概率，如短信内容特征关键词和网页内容特征关键词集合x＝{x1，x2，x3...xm}，短信审核标记类型的集合，即短信的分类类别为y＝{y1，y2，y3...yn}，短信类型包括：营销、通知、验证码、家校通等，本步骤的目的是为了计算每一个类别出现的概率P(yj)和每一个关键词在每一个类别中出现的概率P(xi|yj)；

(2)对审核纠错特征关键词和纠错分类结果进行统计，以确定每个纠错关键词对应纠错分类类别的概率，例如纠错特征关键词z＝{z1，z2，z3...zm}，其对应不同分类类别的概率为P(zi|yj)；

(3)根据纠错特征关键词对训练关键词进行一定倍率的修正，设纠错特征关键词的权重倍率为k，则修正后的P(xi|yj)’＝P(xi|yj)*(P(zi|yj)*k+1)；

(4)由此可得到每一个特征关键词对应审核分类的概率P(xi|yj)’*P(yj)；

(5)输出每一个特征关键词对应审核分类的概率作为审核模型，最终分类方式就是将短信的全部特征关键词对应审核分类的概率求和并取其中概率最大的分类类型yj，即认为是该条短信的审核类型结果。

子步骤S52：使用测试集测试审核模型，并且对测试结果进行评估和调优；生成最终效果最好的审核模型。

将待审核短信中URL所对应的特征关键词和短信内容特征关键词输入上述的审核模型，即可获得该短信的审核类型结果。待审核短信中URL所对应的网页内容可利用爬虫技术进行抓取，也可从上述的URL内容库中获取，然后再将待审核短信内容和网页内容进行分词和特征关键词的提取。

针对包含URL的短信，本发明通过爬虫技术对短信中的URL进行实时抓取，再结合短信内容和网页内容同时进行建模，通过机器学习算法对待审核短信内容的性质进行分类，最终根据发送通道允许发送的类型确定短信是需要放行还是拦截，在具体实施中取得了良好的效果。

本发明第三实施例提供一种带URL短信的审核方法，如图4为本发明实施例的带URL短信的审核方法流程图，包括以下步骤：

步骤A1：提取出待审核带URL短信的完整URL、发送通道允许发送的类型和短信内容，并将短信内容进行分词和提取特征关键词。

步骤A2：通过爬虫技术对待审核带URL短信的URL进行抓取获得对应的网页内容，并对网页内容进行分词和提取特征关键词，或者直接在URL内容库中匹配该URL所对应的网页内容特征关键词。

步骤A2包括以下子步骤：

子步骤A21：首先到URL内容库(HBase数据库)中匹配该URL所对应的特征关键字，如果查不到则进入步骤A22，如果查的到则跳过子步骤A22进入步骤A3；

子步骤A22：将URL放入爬虫程序抓取列表，爬虫程序异步抓取，抓取完成后对网页内容进行分词，并通过NLP自然语言分析技术和TF-IDF算法提取网页特征关键词，最后将网页内容特征关键词插入到URL内容库(HBase数据库)中，并且更新列表状态和特征数据。

步骤A3：将待审核带URL短信的短信内容特征关键词和网页内容特征关键词结合，并输入到上述所构建的审核模型中，由审核模型对待审核短信进行模型计算得到审核类型结果。

将待审核带URL短信的短信内容特征关键词和网页内容特征关键词结合，并输入到上述所构建的审核模型中，通过审核模型计算得到每一个特征关键词对应审核分类的概率，将短信的全部特征关键词对应审核分类的概率求和，并取其中概率最大的分类类型，即认为是该条短信的审核类型结果。

步骤A4：根据待审核带URL短信的发送通道允许发送的短信类型和所述审核类型结果进行比较，做出审核通过或者审核拦截的决策。

其中，步骤A1和A2中涉及到短信内容和网页内容的特征关键词提取，本发明采用了NLP自然语言分析技术和TF-IDF算法，而在步骤A3中短信内容特征关键词和网页内容特征关键词的结合方面采用了固定总量自适应权重的结合算法，具体包括步骤如下：

步骤A31：通过分词技术对相应文本进行分词；

步骤A32：针对分词进行词性标记，并过滤掉针对短信内容来讲意义不大的词性，如：连词、叹词、助词、数词、量词、拟声词等大量对信息审核无实际意义的词都要抛弃不用；

步骤A33：针对网页内容可能分词后可能会有很多特征关键词的情况，使用TF-IDF算法对特征关键词按照重要性进行排序，取前n个关键词与短信内容一起进行计算；

步骤A34：网页内容特征关键词n的取值通过自适应权重算法确定，算法设定最小值为a，最大值为b，假设短信内容中的特征关键词为x个，则网页内容关键词数量n＝max(a，20-b)，实际使用中，最小值a＝5，b＝20，这样一来，使得整体特征关键词的数量保持在一条正常短信的范围内，同时也可以自适应短信内容和网页内容的特征关键词的权重占比，使得审核更加合理。

本发明第四实施例提供一种短信的审核方法，图5和图6为本发明实施例的短信审核方法流程图和方法步骤图，如图5和图6所示，包括以下步骤：

步骤B1：检测待审核短信是否包含URL，如果不包含则返回无需URL审核，如果包含则提取出待审核短信的URL、通道类型及和短信内容，进入步骤B2。

步骤B2：将待审核短信内容进行分词并提取特征关键词，与纠错短信进行相似度匹配，相似度超过一定阈值并且通道类型一致的审核拦截，否则进入步骤B3。

将短信内容进行分词，提取特征关键词，同时检测纠错缓存，如果纠错缓存中存在与本条短信相似度超过一定阈值的纠错短信，并且通道类型一致的，则按照纠错缓存的审核结果进行操作，审核驳回或通过。

步骤B3：将提取出待审核短信的URL与URL黑白名单库中的地址进行比对，如果包含在URL黑白名单库中则按照相应通道类型和审核操作进行拦截或者放行，否则进入步骤B4。

检测提取出的URL中是否包含URL黑白名单库中的地址，如果包含则按照黑白名单库的相应通道类型和审核操作则进行拦截或者放行，如果包含在URL黑名单中且通道类型一致的，审核驳回；如果包含在URL白名单中且通道类型一致的，审核通过。如果没有匹配的URL则进入下一步。

步骤B4：在URL内容库中匹配该待审核短信的URL所对应的特征关键词，如果URL内容库中包含有该URL的网页信息，则提取所述URL对应的网页内容的特征关键词，直接进入步骤B6，否则进入步骤B5。

步骤B5：通过爬虫技术对待审核短信的URL进行抓取获得对应的网页内容，并对网页内容进行分词和提取特征关键词。

将URL放入爬虫程序抓取列表，爬虫程序异步抓取，抓取完成后对网页内容进行分词，并通过NLP自然语言分析技术和自适应权重算法提取网页特征关键词，最后将特征关键词插入到URL内容库(HBase数据库)中，并且更新列表状态和特征数据。

步骤B6：将待审核短信的短信内容特征关键词和网页内容特征关键词结合，并输入到上述构建的审核模型中，由审核模型进行模型计算得到待审核短信的审核类型结果；

将待审核短信的短信内容特征关键词和网页内容特征关键词结合，并输入到上述所构建的审核模型中，通过审核模型计算得到每一个特征关键词对应审核分类的概率，将短信的全部特征关键词对应审核分类的概率求和，并取其中概率最大的分类类型，即认为是该条短信的审核类型结果。

步骤B7：根据待审核短信的发送通道允许发送的短信类型和所述待审核短信的审核类型结果比较，做出审核通过或者审核拦截的决策。

其中，步骤B2和B5中的涉及到短信内容和网页内容的特征关键词提取，本发明采用了NLP自然语言分析技术和TF-IDF算法，而在步骤B6中短信内容特征关键词和网页内容特征关键词的结合方面采用了固定总量自适应权重的结合算法，具体步骤如下：

步骤B61：通过分词技术对相应文本进行分词；

步骤B62：针对分词进行词性标记，并过滤掉针对短信内容来讲意义不大的词性，如：连词、叹词、助词、数词、量词、拟声词等大量对信息审核无实际意义的词都要抛弃不用；

步骤B63：针对网页内容可能分词后可能会有很多特征关键词的情况，使用TF-IDF算法对特征关键词按照重要性进行排序，取前n个关键词与短信内容一起进行计算；

步骤B64：网页内容特征关键词n的取值通过自适应权重算法确定，算法设定最小值为a，最大值为b，假设短信内容中的特征关键词为x个，则网页内容关键词数量n＝max(a，20-b)，实际使用中，最小值a＝5，b＝20，这样一来，使得整体特征关键词的数量保持在一条正常短信的范围内，同时也可以自适应短信内容和网页内容的特征关键词的权重占比，使得审核更加合理。

本发明第五实施例提供一种URL短信的审核系统，包括存储器和处理器，存储器用于存储处理器执行的程序，处理器用于执行上述的构建短信审核模型的方法，然后执行上述的短信审核方法。

本发明以网络爬虫和机器学习的技术相结合来模拟带URL短信在人脑审核短信时的决策过程，实现传统方式下只有人工审核才能做到的智能化审核，提升审核准确度、降低短信延时，同时也能大大降低公司运营成本。

传统的短信审核方法只能针对URL本身做文章，针对网站的类型和域名分类审核，但对于URL背后的内容无从下手，本发明通过实时在线爬虫的方式可以针对URL内容进行判断审核，取得了重大突破；

针对完全实施爬虫效率低延时大的问题，本发明提出了一个高效、可靠的解决方案，通过设置URL黑名单、URL内容库的技术方案，使用通过海量存储空间换取较低审核延时的方式，取得了良好的效果，实际审核中超过98％的URL都是从URL内容库中直接读出的，只有不足2％新出现的URL才需要去实时抓取，从而保障了低审核延时的要求；

在特征关键词提取方面本发明采用了词性标注、词性过滤、TF-IDF筛选和自适应权重算法，各不同算法的结合使用，保障了特征关键词的效果最优化；

本发明的纠错模块是管理人员事后对审核系统的纠错行为，也是审核系统自我学习自我完善，可进化发展的源泉，该部分的管理功能可以安排人定时处理，也可不处理让系统完全自动化进行，根据实际测试结果，有正常管理纠错的审核准确度比没有管理纠错的准确度要高5％左右，所以通过事后管理的方式有效的提升了审核准确度。

本发明通过在建模时对纠错短信特征关键词的分类概率进行一定倍率进行放大的方式，有效解决了原有机器学习技术对训练数据的惯性太大，针对纠错学习速度太慢的问题，在具体使用中可以随着纠错信息的录入更加快速的进行改变；

本发明通过爬虫技术将原来审核时不可能知道URL内容的变成审核时能够得知，并且实现了一次性爬虫抓取，永久缓存的方式，提升了后续审核效率，也降低了运行成本，同时通过特征关键词提取技术、短信内容和网页内容自适应结合算法和改进的纠错特征关键词放大技术大大的提升了审核准确度，通过整体的配合，目前实现的平均审核延时小于1秒，而审核准确度却达到了98％以上，比单纯的分词+机器学习的方式提升15％以上。

还需要说明的是，除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本发明的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字，应理解为在所有情况中是受到[约」的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

再者，单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面发明的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种带URL短信的审核系统，包括：

实时抓取模块，用于通过爬虫程序对待审核带URL短信中的URL进行抓取，得到待审核带URL短信的URL对应的网页内容，并将网页内容进行处理得到网页内容特征关键词；

审核模型模块，用于将所述网页内容特征关键词和通过对所述待审核带URL短信的短信内容进行分词提取得到的短信内容特征关键词结合，并输入审核模型经过模型计算得到待审核带URL短信的审核类型结果，然后将待审核带URL短信发送通道的允许发送类型和审核类型结果进行比较，得到审核通过或拦截的结果；其中，所述审核模型是预先通过模型训练模块获取已审核带URL短信的短信内容特征关键词、URL对应的网页内容特征关键词和审核标记类型结果，并利用所述已审核带URL短信的短信内容特征关键词、URL对应的网页内容特征关键词和审核标记类型结果通过机器学习的方式进行建模而得到的。

2.根据权利要求1所述的审核系统，其中，在实时抓取模块之前还包括URL检测模块，用于检测待审核短信是否包含URL，如果不包含则得到无需URL审核的结果，如果包含URL则提取出URL、短信内容及发送通道允许发送类型，并将其输入与之连接的下一模块。

3.根据权利要求2所述的审核系统，其中，在URL检测模块和实时抓取模块之间还包括URL内容模块，所述URL内容模块包括URL内容库，所述URL内容库保存有模型训练模块和实时抓取模块获得的所有URL对应的网页内容特征关键词，所述URL内容模块在URL内容库中匹配所述URL检测模块提取的URL所对应的网页内容特征关键词，如果URL内容库中包含有所述URL对应的网页内容特征关键词，则将所述网页内容特征关键词输入所述审核模型模块，否则将所述URL输入实时抓取模块。

4.根据权利要求3所述的审核系统，其中，在所述URL检测模块和URL内容模块之间还包括纠错匹配模块和/或URL黑白名单模块，所述纠错匹配模块和URL黑白名单模块位置不分先后；其中：

纠错匹配模块，接收所述URL检测模块提取的短信内容，将短信内容进行处理，得到短信内容特征关键词，将所述短信内容特征关键词与缓存的纠错短信进行相似度匹配，若相似度超过一定阈值且发送通道允许发送类型一致，则按照纠错短信的审核结果进行拦截或放行，否则将短信内容特征关键词输入与之连接的下一模块；

URL黑白名单模块，包括URL黑白名单库，接收所述URL检测模块提取的URL，将所述URL与URL黑白名单库中的URL地址进行比对，若所述URL包含在URL黑白名单库中，则根据比对结果和发送通道允许发送类型得到审核通过或拦截的结果，否则进入URL内容模块。

5.根据权利要求4所述的审核系统，其中，还包括后台管理模块，用于将URL地址放入URL黑白名单库，对审核模型模块的审核结果进行纠错，并将纠错短信保存至纠错匹配模块和模型训练模块；

所述模型训练模块利用所述纠错短信定时进行训练，更新所述审核模型。

6.根据权利要求4或5中所述的审核系统，其中，

所述纠错匹配模块用于将短信内容进行分词，并利用NLP自然语言分析技术和TF-IDF算法提取特征关键词得到短信内容特征关键词；

所述实时抓取模块用于将网页内容进行分词，并利用NLP自然语言分析技术和TF-IDF算法提取特征关键词得到网页内容特征关键词。

7.一种构建短信审核模型的方法，包括：

S1：获取多条已审核带URL的短信和对应的审核标记类型结果；

S2：通过爬虫技术对已审核带URL短信中的URL进行抓取，获得相应的网页内容；

S3：将已审核带URL短信的短信内容和网页内容进行分词并提取特征关键词，已审核带URL短信的短信内容特征关键词、网页内容特征关键词和审核标记类型结果构成数据样本；

S4：将数据样本按比例分为训练集和测试集；

S5：通过机器学习算法对训练集进行训练，生成审核模型，并利用测试集测试审核模型，获得训练完成的审核模型。

8.根据权利要求7所述的构建短信审核模型的方法，其中，所述步骤S2进一步包括：

S21：从已审核带URL短信的短信内容中提取URL，插入到爬虫爬取任务列表中；

S22：爬虫程序从爬取任务列表中读取URL，并且抓取相应的网页内容。

9.一种带URL短信的审核方法，包括：

A1：提取出待审核带URL短信的URL、发送通道允许发送的类型和短信内容，并将待审核带URL短信的短信内容进行分词和提取特征关键词；

A2：通过爬虫技术对待审核带URL短信的URL进行抓取获得对应的网页内容，并对网页内容进行分词和提取特征关键词，或者在URL内容库中匹配该URL所对应的网页内容特征关键词；

A3：将待审核带URL短信的短信内容特征关键词和网页内容特征关键词结合，并输入到如权利要求7或8所构建的审核模型中，由审核模型对待审核短信进行模型计算得到待审核带URL短信的审核类型结果；

A4：根据待审核带URL短信的发送通道允许发送的短信类型和所述审核类型结果进行比较，做出审核通过或者审核拦截的决策。

10.根据权利要求9所述的带URL短信的审核方法，其中，

步骤A1和A2中的待审核带URL短信的短信内容和网页内容的特征关键词提取采用NLP自然语言分析技术和TF-IDF算法实现；

步骤A3中的短信内容特征关键词和网页内容特征关键词的结合采用固定总量自适应权重的结合算法，具体包括以下步骤：

A31：通过分词技术对相应文本进行分词；

A32：针对分词进行词性标记，并过滤掉对短信审核无实际意义的词；

A33：使用TF-IDF算法对网页内容特征关键词按照重要性进行排序，取前n个关键词与短信内容一起进行计算；

A34：网页内容特征关键词n的取值通过自适应权重算法确定，算法设定最小值为a，最大值为b，假设短信内容中的特征关键词为x个，则网页内容特征关键词数量为n＝max(a，20-b)。

11.一种短信的审核方法，包括：

B1：检测待审核短信是否包含URL，如果不包含则返回无需URL审核，如果包含则提取出待审核短信的URL、发送通道允许发送的类型和短信内容，进入步骤B2；

B2：将待审核短信的短信内容进行分词并提取特征关键词，与纠错短信进行相似度匹配，相似度超过一定阈值并且通道类型一致的按照纠错短信的审核结果进行操作，否则进入步骤B3；

B3：将提取出的待审核短信的URL与URL黑白名单库中的地址进行比对，如果包含在URL黑白名单库中则按照相应发送通道类型和审核操作进行拦截或者放行，否则进入步骤B4；

B4：在URL内容库中匹配该待审核短信的URL所对应的网页内容特征关键词，如果URL内容库中包含有该URL的网页信息，则提取所述URL对应的网页内容的特征关键词，直接进入步骤B6，否则进入步骤B5；

B5：通过爬虫技术对待审核短信的URL进行抓取获得对应的网页内容，并对网页内容进行分词和提取特征关键词；

B6：将待审核短信的短信内容特征关键词和网页内容特征关键词结合，并输入到如权利要求7或8所构建的审核模型中，由审核模型进行模型计算得到待审核短信的审核类型结果；

B7：根据待审核短信的发送通道允许发送的短信类型和所述审核类型结果进行比较，做出审核通过或者审核拦截的决策。

12.根据权利要求11所述的短信的审核方法，其中，

步骤B2和B5中的短信内容和网页内容的特征关键词提取采用NLP自然语言分析技术和TF-IDF算法实现；

步骤B6中的短信内容特征关键词和网页内容特征关键词的结合采用固定总量自适应权重的结合算法，具体包括以下步骤：

B61：通过分词技术对相应文本进行分词；

B62：针对分词进行词性标记，并过滤掉对短信审核无实际意义的词；

B63：使用TF-IDF算法对网页内容特征关键词按照重要性进行排序，取前n个关键词与短信内容一起进行计算；

B64：网页内容特征关键词n的取值通过自适应权重算法确定，算法设定最小值为a，最大值为b，假设短信内容中的特征关键词为x个，则网页内容特征关键词数量为n＝max(a，20-b)。

13.一种带URL短信的审核系统，包括：

存储器，用于存储处理器执行的程序；

处理器，用于执行如权利要求9至12任一项所述的短信审核方法。

14.根据权利要求13所述的审核系统，其中，所述处理器在执行如权利要求9至12任一项所述的短信审核方法之前，还执行了如权利要求7或8所述的构建短信审核模型的方法。