CN109831751A

CN109831751A - 一种基于自然语言处理的短信内容风控系统及方法

Info

Publication number: CN109831751A
Application number: CN201910009584.1A
Authority: CN
Inventors: 黄建辉
Original assignee: Shanghai Chuanglan Culture Communication Co Ltd
Current assignee: Shanghai Chuanglan Culture Communication Co Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-05-31

Abstract

本发明公开了一种基于自然语言处理的短信内容风控系统及方法，包括步骤一，数据提取；步骤二，语义分析；步骤三，模型审核；步骤四，人工审核；其中上述步骤一中，通过PySpark分布式计算技术对历史数据进行提取，并将提取的短信送入到语义模型中；其中上述步骤二中，通入语义模型后，通过Hanlp对数据进行分词和实体识别，去除人名、地名、停用词、时间、货币等非关键词汇，再通过K‑Means聚类算法对无标签数据进行标签化，然后将标签化的短信发送至审核敏感词模型，本发明，利用最新的NLP技术建模，通过语义模型进行敏感词判断，从而高效和准确的判断短信内容的风险系数，解决了现有技术中高延迟高耦合的问题。

Description

一种基于自然语言处理的短信内容风控系统及方法

技术领域

本发明涉及短信内容监控领域，具体为一种基于自然语言处理的短信内容风控系统及方法。

背景技术

所谓敏感信息是指不当使用或未经授权被人接触或修改会不利于国家利益或联邦政府计划的实行或不利于个人依法享有的个人隐私权的所有信息。随着手机行业的日益发展，敏感短信的问题越发严重。反敏感短信的技术也在不断的进步。现有的技术是基于已有的敏感词库，通过正则表达式的技术进行短信内容匹配，若匹配到短信内容中有部分词汇在敏感词表中，则判定敏感短信，从而进行拦截。但是现有的技术存在高延迟和高耦合的缺点。高延迟是指在敏感词库增加到一定量的时候，正则匹配的速度会下降，对性能造成一定的影响，从而影响短信发送的时效性。而高耦合是指判断的逻辑在项目内部，不利于扩展和后期开放到其他行业。因此，设计一种高效、准确的基于自然语言处理的短信内容风控系统及方法是很有必要的。

发明内容

本发明的目的在于提供一种基于自然语言处理的短信内容风控系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：包括步骤一，数据提取；步骤二，语义分析；步骤三，模型审核；步骤四，人工审核；

其中上述步骤一中，通过PySpark分布式计算技术对历史数据进行提取，并将提取的短信送入到语义模型中；

其中上述步骤二中，通入语义模型后，通过Hanlp对数据进行分词和实体识别，去除人名、地名、停用词、时间、货币等非关键词汇，再通过K-Means聚类算法对无标签数据进行标签化，然后将标签化的短信发送至审核敏感词模型；

其中上述步骤三中，审核敏感词模型接收到短信后，将短信内容与计算机中的敏感词库进行对比，若短信内容中未出现与计算机敏感词库相同的内容，该短信直接发送待发送库进行发送，若短信内容中出现与计算机敏感词库相同的内容，该短信将被发送至审核库进行人工审核；

其中上述步骤四中，人工将审核库中的短信提取出来，并进行人工审核，若审核库中的短信包含敏感词汇，人工将手动把敏感词汇输入到待学习词库中，若审核库中的短信不包含敏感词汇，将直接发送至待发送库进行发送；

根据上述技术方案，所述步骤二中，语义模型是通过NLP技术建设。

根据上述技术方案，所述步骤三中，在对比过程中，既要查看短线是否含有敏感词汇，还要计算短信中的敏感字是否超过敏感词库中设定的阀值。

根据上述技术方案，其特征在于：所述步骤四中，计算机将对含有敏感词汇短信的主叫号码进行标记。

根据上述技术方案，所述步骤四中，计算机将待学习词库中的敏感词汇保存至语义模型中，纠正模型参数。

与现有技术相比，本发明所达到的有益效果是：本发明中的NLP风控系统，通过与现有系统结合，实现全过程风险控制,本发明中的语义模型，通过对传入的短信内容进行语义分析，若判定为敏感信息，则入人工审核库，否则发送，在人工审核后会出现两种结果，既含有敏感词和不含有敏感词,对于不含有敏感词的部分，就是语义模型判断错误的地方，将这些数据进行模型在学习，纠正模型参数，以达到更好的效果,从而高效和准确的判断短信内容的风险系数，解决了现有技术中高延迟高耦合的问题。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的使用方法流程图；

图2是本发明的系统流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：包括步骤一，数据提取；步骤二，语义分析；步骤三，模型审核；步骤四，人工审核；

根据上述技术方案，在步骤二中，语义模型是通过NLP技术建设。

根据上述技术方案，在步骤三中，在对比过程中，既要查看短线是否含有敏感词汇，还要计算短信中的敏感字是否超过敏感词库中设定的阀值。

根据上述技术方案，在步骤四中，计算机将对含有敏感词汇短信的主叫号码进行标记。

根据上述技术方案，在步骤四中，计算机将待学习词库中的敏感词汇保存至语义模型中，纠正模型参数。

基于上述，本发明的优点在于，本发明中的NLP风控系统，通过与现有系统结合，实现全过程风险控制,本发明中的语义模型，通过对传入的短信内容进行语义分析，若判定为敏感信息，则入人工审核库，否则发送，在人工审核后会出现两种结果，既含有敏感词和不含有敏感词,对于不含有敏感词的部分，就是语义模型判断错误的地方，将这些数据进行模型在学习，纠正模型参数，以达到更好的效果,从而高效和准确的判断短信内容的风险系数，解决了现有技术中高延迟高耦合的问题。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自然语言处理的短信内容风控系统及方法，包括步骤一，数据提取；步骤二，语义分析；步骤三，模型审核；步骤四，人工审核；其特征在于；

其中上述步骤四中，人工将审核库中的短信提取出来，并进行人工审核，若审核库中的短信包含敏感词汇，人工将手动把敏感词汇输入到待学习词库中，若审核库中的短信不包含敏感词汇，将直接发送至待发送库进行发送。

2.根据权利要求1所述的一种基于自然语言处理的短信内容风控系统及方法，其特征在于：所述步骤二中，语义模型是通过NLP技术建设。

3.根据权利要求1所述的一种基于自然语言处理的短信内容风控系统及方法，其特征在于：所述步骤三中，在对比过程中，既要查看短线是否含有敏感词汇，还要计算短信中的敏感字是否超过敏感词库中设定的阀值。

4.根据权利要求1所述的一种基于自然语言处理的短信内容风控系统及方法，其特征在于：所述步骤四中，计算机将对含有敏感词汇短信的主叫号码进行标记。

5.根据权利要求1所述的一种基于自然语言处理的短信内容风控系统及方法，其特征在于：所述步骤四中，计算机将待学习词库中的敏感词汇保存至语义模型中，纠正模型参数。