CN111680225B

CN111680225B - 基于机器学习的微信金融消息分析方法及系统

Info

Publication number: CN111680225B
Application number: CN202010338132.0A
Authority: CN
Inventors: 贺敏; 郭富民; 董琳; 杜慧
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2023-08-18
Anticipated expiration: 2040-04-26
Also published as: CN111680225A

Abstract

本发明公开了一种基于机器学习的微信消息分析方法，包括：步骤一、构建训练语料库；步骤二、建立词汇向量表；步骤三和步骤四、构建和训练卷积神经网络；步骤五、将待分析的微信消息对应的多个词汇对应的词向量构成的词向量矩阵输入至训练得到的卷积神经网络，输出得到该微信消息对应的所有标签的概率分布情况。本发明具有精准预测微信消息所属的金融分类标签的有益效果。本方法还公开了一种基于机器学习的微信消息分析系统，包括：数据采集组件；训练语料库；文本预处理组件；模型训练组件；源数据分类组件。本系统具有精准预测微信消息所属的金融分类标签的有益效果。

Description

基于机器学习的微信金融消息分析方法及系统

技术领域

本发明涉及计算机机器学习领域。更具体地说，本发明涉及一种基于机器学习的微信金融消息分析方法及系统。

背景技术

互联网金融创新带来了我国互联网金融行业的蓬勃发展，但与此同时风险也在恣意蔓延，从事非法集资、传销、诈骗等金融违法违规行为的不法分子，借助互联网社交媒体传播诱导性、欺诈性信息，尤其是微信朋友圈，其内容较为私密不易被传统监测技术发现，并且其传播极具有针对性能够快速到达目标人群。同时，不具备金融常识、对金融产品鉴别能力较差的普通大众往往抵挡不住高利诱惑，导致财产安全受到威胁，容易引发社会性风险。

现如今，微信逐渐成为主流的社交媒体平台，随着微信用户量的增多和粘性增加，由于微信朋友圈相较于传统的微博、新闻、论坛等通道更私密，所以其信息在表述方式和内容方面都有所不同，呈现出更夸张、特征性更强等特点，现有针对微博、新闻、论坛等通道的线索分析手段需要依据微信朋友圈特性开展定制化分析工作。此外，由于金融从业人员和投资者这个庞大的群体均表现出一定的流动性，对它们的分析有助于互联网金融的风险研判和风险传递分析，但目前并没有相关的技术分析手段，因此开发一套能够采集、鉴别并分析微信欺诈金融消息的系统显得极为重要。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种基于机器学习的微信消息分析方法，可以精准预测微信消息所属的金融分类标签。

提供一种基于机器学习的微信消息分析系统，可以精准预测微信消息所属的金融分类标签。

为了实现根据本发明的这些目的和其它优点，提供了一种基于机器学习的微信消息分析方法，包括以下步骤：

步骤一、构建训练语料库，所述训练语料库包括多条微信消息，每条微信消息已标记所属的标签，所述微信消息为微信朋友圈消息或微信群消息，所述标签按金融性质分类；

步骤二、建立词汇向量表，所述词汇向量表包括所述训练语料库涉及的所有词汇，每个词汇具有唯一的词向量；

步骤三、构建卷积神经网络，所述卷积神经网络采用Glove模型和TF-IDF算法对输入层的词语进行向量化；

步骤四、对训练语料的文本内容进行预处理得到对应的多个词汇，查询词汇向量表得到多个词汇对应的词向量，以每条训练语料的词向量构成的词向量矩阵作为输入层，以每条训练语料所属的标签为最大概率的所有标签的概率分布情况为输出层，调整所述卷积神经网络的损失函数、池化函数、激活函数、卷积核函数的参数；

步骤五、将待分析的微信消息的文本内容进行文本预处理，得到对应的多个词汇，查询词汇向量表得到多个词汇对应的词向量，将该多个词汇对应的词向量构成的词向量矩阵输入至步骤四训练得到的卷积神经网络，输出得到该微信消息对应的所有标签的概率分布情况。

优选的是，所述词汇向量表的建立方法具体为：将所述训练语料库中所有的训练语料进行文本预处理后，设定滑动窗口大小为奇数，统计中心词与语境词共现次数，遍历整个训练语料库，构建一个共现矩阵，然后基于Glove模型计算得出每个词汇的词向量，经过TF-IDF加权处理后，并汇总构成所述词汇向量表；

其中，文本预处理包括依次对训练语料进行分词操作和预设的停用词过滤。

优选的是，所述卷积神经网络采用多种大小不同的卷积核对多个词向量对应的多个词汇矩阵进行卷积提取语义特征，每一个卷积核对应一种语义特征。

优选的是，所述卷积神经网络采用非线性激活函数计算经卷积后的语义特征值。

优选的是，所述卷积神经网络的池化层采用最大池化法选取语义特征值。

优选的是，所述卷积神经网络的输出层采用Dropout方法将隐藏单元按照一定的概率淘汰。

优选的是，所述卷积神经网络的输出层采用Softmax损失函数计算交叉熵，以求得输入层的数据在各类标签下的概率分布情况。

优选的是，所述标签的类别包括金融类别标签和其他类别标签，所述金融类别标签包括本息保障、层级推广、高额返利、产品项目夸大，其中不属于金融类别的微信消息统一归为其他类标签。

提供一种基于机器学习的微信消息分析方法的系统，包括：

数据采集组件，其用于采集和存储微信消息，所述微信消息为微信朋友圈消息或微信群消息，所述标签按金融性质分类；

训练语料库，其用于存储训练语料；

文本预处理组件，其用于对微信消息和训练语料进行文本预处理得到对应的多个词汇；

模型训练组件，其用于构建词汇向量表，以及用于构建卷积神经网络，以及用于对训练语料的文本内容进行预处理得到对应的多个词汇，查询词汇向量表得到多个词汇对应的词向量，以每条训练语料的词向量构成的词向量矩阵作为输入层，以每条训练语料所属的标签为最大概率的所有标签的概率分布情况为输出层，训练所述卷积神经网络，其中，所述卷积神经网络采用Glove模型和TF-IDF算法对输入层的词语进行向量化；

源数据分类组件，其用于将所述文本预处理组件处理后的待分析的微信消息对应的多个词汇对应的词向量构成的词向量矩阵输入至训练得到的卷积神经网络，输出得到该微信消息对应的所有标签的概率分布情况。

优选的是，所述文本预处理组件还用于将所述训练语料库中所有的训练语料进行文本预处理，所述模型训练组件用于将得到的所有词汇汇总得到所述词汇向量表。

本发明至少包括以下有益效果：

第一、相比于民生、社会、财经等新闻分类，本发明需要从各种各样的朋友圈消息中筛选出金融类消息并分为诈骗广告类、揭发爆料类等粒度更小的类别，分类更精细，对分类结果精准度要求更高，并且朋友圈消息大多属于短文本，其语义提取难度更大，分类难度也更高。采用本方法建立的卷积神经网络，可以对海量的微信朋友圈消息和微信群消息进行精准的分类，从而快速精准的预测微信消息所属的金融分类标签。

第二、Glove模型是在Skip-Gram模型的基础上做了扩展，利用了全局特征的矩阵分解方法，并且利用TF-IDF对词向量进行加权，代替了自然语言处理中常用的one-hot向量化方法，避免了词向量维度过高，提高了计算效率和训练结果的精准度。

第三、所述卷积神经网络的输出层采用Dropout方法将隐藏单元按照一定的概率淘汰。输出层，也叫全连接层，将经过池化层选取出的最终特征值按照深度方向进行连接。在全连接使用Dropout方法将卷积神经网络的隐藏单元按照一定的概率暂时淘汰，即暂关闭，用来防止隐藏神经元共适应，从而降低过拟合程度。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的其中一种技术方案的所述分析系统的框架图；

图2为本发明的其中一种技术方案的所述卷积神经网络的数据处理流程图；

图3为本发明的其中一种技术方案的所述分析系统的数据处理示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1～3所示，本发明提供一种基于机器学习的微信消息分析方法，包括以下步骤：

步骤一、构建训练语料库，所述训练语料库包括多条微信消息，每条微信消息已标记所属的标签，所述微信消息为微信朋友圈消息或微信群消息，所述标签按金融性质分类；可以采用人工分类的方法，对每条训练语料进行分类，并标记所属的标签，标签的类别比如可以是本息保障、层级推广、高额返利、产品项目夸大，原则是训练语料与标签具有强关联性，避免二义性，以保证训练过程中每个标签特征的独特性和代表性。

步骤二、建立词汇向量表，所述词汇向量表包括所述训练语料库涉及的所有词汇，每个词汇具有唯一的词向量，在预处理时将分词后的语料用词向量代替构成词向量矩阵，方便后续计算；

步骤三、构建卷积神经网络，所述卷积神经网络采用Glove模型和TF-IDF算法对输入层的词语进行向量化；采用Glove+TF-IDF代替传统的one-hot实现向量化，可以起到降维加权作用，以提高训练性能和精确度。

Glove，全称Global Vectors for Word Representation，是一个基于全局词频统计的词表征算法。它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间相似性、类比性等语义特性。我们通过对向量的欧几里得距离或者余弦相似度运算，可以计算出两个单词之间的语义相似性，其代价函数可表示为公式1所示：

其中v_i,,v_j是单词i和单词j的词向量，b_i,b_j是两个标量(偏差项)，f是权重函数，N是词汇向量表的大小(共现矩阵维度为N*N)。同时，当词频过高时，权重不应过分增大，因此权重函数如公式2所示：

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

其中词频TF是指某个单词在文档中出现的频率，其表达式如公式3所示：

逆向文档频率IDF是一个词语普遍重要性的度量，可以由总文件数目除以包含该词语之文件的数目>1，再将得到的商取对数得到，其表达式如公式4所示：

由定义可得：tfidf_i,j＝tf_i,j×idf_i。

步骤四、对训练语料的文本内容进行预处理得到对应的多个词汇，查询词汇向量表得到多个词汇对应的词向量，以每条训练语料的词向量构成的词向量矩阵作为输入层，以每条训练语料所属的标签为最大概率的所有标签的概率分布情况为输出层，调整所述卷积神经网络的损失函数、池化函数、激活函数、卷积核函数的参数；根据每条训练语料既定分类标签，反向计算出损失函数，池化函数，激活函数以及卷积核函数当中参数需要更新的梯度，依次更新这些函数中的参数。采用大量训练语料训练卷积神经网络，可以提高卷积神经网络预测分类的准确性。对文本内容进行预处理可以采用文本分词法，得到多个词语，然后再利用停用词过滤，过滤掉不需要的词语，然后对训练语料进行格式化等。

步骤五、将待分析的微信消息的文本内容进行文本预处理，得到对应的多个词汇，查询词汇向量表得到多个词汇对应的词向量，将该多个词汇对应的词向量构成的词向量矩阵输入至步骤四训练得到的卷积神经网络，输出得到该微信消息对应的所有标签的概率分布情况。只需要进行简单的文本预处理，采用训练得到的卷积神经网络即可对海量的微信朋友圈消息和微信群消息进行精准的分类，从而快速精准的识别出涉及金融违法的金融消息。

相比于民生、社会、财经等新闻分类，本发明需要从各种各样的朋友圈消息中筛选出金融类消息并分为诈骗广告类、揭发爆料类等粒度更小的类别，分类更精细，对分类结果精准度要求更高，并且朋友圈消息大多属于短文本，其语义提取难度更大，分类难度也更高。在上述技术方案中，Glove模型是在Skip-Gram模型的基础上做了扩展，利用了全局特征的矩阵分解方法，并且利用TF-IDF对词向量进行加权，代替了自然语言处理中常用的one-hot向量化方法，避免了词向量维度过高，提高了计算效率和训练结果的精准度。因此采用本方法建立的卷积神经网络，可以对海量的微信朋友圈消息和微信群消息进行精准的分类，从而快速精准的识别出涉及金融违法的金融消息。

在另一种技术方案中，所述词汇向量表的建立方法具体为：将所述训练语料库中所有的训练语料进行文本预处理后，设定滑动窗口大小为奇数，统计中心词与语境词共现次数，遍历整个训练语料库，构建一个共现矩阵，然后基于Glove模型计算得出每个词汇的词向量，经过TF-IDF加权处理后，并汇总构成所述词汇向量表；

在另一种技术方案中，所述卷积神经网络采用多种大小不同的卷积核对多个词向量对应的多个词汇矩阵进行卷积提取语义特征，每一个卷积核对应一种语义特征。使用大小不同的卷积核进行卷积操作可以获得不同大小的感受野，使提取的语义特征值更具有代表性。

在另一种技术方案中，所述卷积神经网络采用非线性激活函数计算经卷积后的语义特征值。对于语料样本标签分类来说，其必然是线性不可分的，对提取的语义特征值加入非线性因素，采用非线性激活函数可以增强模型的表达力。

在另一种技术方案中，所述卷积神经网络的池化层采用最大池化法选取语义特征值。在保持主要特征的情况下，显著降低了参数的数目，目的在于突出局部特征中的最大信息并提高计算速度。

在另一种技术方案中，所述卷积神经网络的输出层采用Dropout方法将隐藏单元按照一定的概率淘汰。输出层，也叫全连接层，将经过池化层选取出的最终特征值按照深度方向进行连接。在全连接使用Dropout方法将卷积神经网络的隐藏单元按照一定的概率暂时淘汰，即暂关闭，用来防止隐藏神经元共适应，从而降低过拟合程度。

所述标签的类别包括金融类别标签和其他类别标签，所述金融类别标签包括本息保障、层级推广、高额返利、产品项目夸大，其中不属于金融类别的微信消息统一归为其他类标签。

在另一种技术方案中，所述卷积神经网络的输出层采用Softmax损失函数计算交叉熵，以求得输入层的数据在各类标签下的概率分布情况。Softmax在机器学习和深度学习中有着非常广泛的应用。尤其在处理多分类(C>2)问题，分类器最后的输出单元需要Softmax函数进行数值处理。关于Softmax函数的定义如公式5所示：

其中，v_i是分类器前级输出单元的输出，i表示类别索引，总的类别个数为C，S_i表示的是当前元素的指数与所有元素指数和的比值。Softmax损失函数可以将全连接后的结果归一化，使用此函数计算出输入的数据分布在各个标签的概率。

图3所示：第一列1为输入层，整体表示单篇语料构成的词向量矩阵，每个小格子表示单个词汇的词向量，第二列2为卷积层，整体表示N个大小不同的卷积核，第三列3为卷积层卷积操作后提取出的语义特征，第四列4为池化层，小格子表示语义特征经过池化操作后提取出的语义特征值，第五列5为全连接层，即输出层，每个小格子表示本篇语料属于各个标签的概率。

具体实例：

收集到的语料样本：@全体成员聚点蚂蚁3大赚钱模式1.纯零撸无投资无推广。每天签到连续签到365天就可以得到1万左右奖励。只是签到，签到，签到重要的事说三遍！2.投资会员级别系统，代做任务(懒人赚钱)黄金会员一天5块钱。铂金会员一天17块钱。钻石会员一天90块钱。至尊会员一天180块钱。(可以叠加5个)最高一天可以拿900块钱。3.推广聚点蚂蚁，一年赚20w轻轻松松一块钱以上可以秒提现。没有任何限制，没有任何套路。提现没有手续费。私我拉进微信群[CQ:image,file＝5D46F7A50BA1BBAE527FF9375B620403.jpg][CQ:image,file＝E48C22B6381781D7DDF6C9C88CECE1C6.jpg][CQ:image,file＝C0563AB05B8BE79105DA2B8436752AF1.jpg]

分词预处理后：全体成员聚点蚂蚁大赚钱模式纯零撸无投资无推广每天签到连续签到天就可以得到万左右奖励只是签到签到签到重要的事说三遍投资会员级别系统代做任务懒人赚钱黄金会员一天块钱铂金会员一天块钱钻石会员一天块钱至尊会员一天块钱可以叠加个最高一天可以拿块钱推广聚点蚂蚁一年赚轻轻松松一块钱以上可以秒提现没有任何限制没有任何套路提现没有手续费私我拉进微信群

将以上分词后的样本中的每个词经过以下处理：查询词汇向量表，获取目标单词的词向量，再将词映射到300维，并将所有向量构成向量矩阵输入到模型输入层。

经模型处理后：输出该样本分布在各分类的概率。

提供一种基于机器学习的微信金融消息分析方系统，包括：

数据采集组件，其用于采集和存储微信消息，所述微信消息为微信朋友圈消息或微信群消息，所述标签按金融性质分类；所述数据采集组件将采集的微信消息存储到一原如语料库内。

训练语料库，其用于存储训练语料；

模型训练组件，其用于构建词汇向量表，以及用于构建卷积神经网络，以及用于对训练语料的文本内容进行预处理得到对应的多个词汇，查询词汇向量表得到多个词汇对应的词向量，以及用于构建卷积神经网络，以每条训练语料的词向量构成的词向量矩阵为输入层，以每条训练语料所属的标签为最大概率的所有标签的概率分布情况为输出层，训练所述卷积神经网络，其中，所述卷积神经网络采用Glove模型和TF-IDF算法对输入层的词语进行向量化；

还可以建立模型库，用于存储由卷积神经网络输出的训练语料的分类结果。用于存储由卷积神经网络完成对训练语料进行N轮训练之后的训练语料的训练模型。

还可以建立分类结果库，用于存储经源数据分类组件分类后的微信消息的分类结果，以方便使用人员调取查看以及后续跟进。

在另一种技术方案中，所述文本预处理组件还用于将所述训练语料库中所有的训练语料进行文本预处理，所述模型训练组件用于将得到的所有词汇汇总得到所述词汇向量表。可以确保词汇向量表中含有训练语料中所有的词汇。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于机器学习的微信消息分析方法，其特征在于，包括以下步骤：

其中，所述词汇向量表的建立方法具体为：将所述训练语料库中所有的训练语料进行文本预处理后，设定滑动窗口大小为奇数，统计中心词与语境词共现次数，遍历整个训练语料库，构建一个共现矩阵，然后基于Glove模型计算得出每个词汇的词向量，经过TF-IDF加权处理后，并汇总构成所述词汇向量表；

其中，文本预处理包括依次对训练语料进行分词操作和预设的停用词过滤；

其中，采用Glove模型对词语向量化捕捉词语之间相似性和类比性语义特性，采用代价函数表示，如公式1所示：

其中v_i,v_j是单词i和单词j的词向量，b_i,b_j是两个标量，即偏差项，f是权重函数，N是词汇向量表的大小；

同时，当词频过高时，权重不应过分增大，权重函数如公式2所示：

公式2的X和公式1中x均表示词频；

采用TF-IDF算法对词语进行加权，字词的重要性随着其在文件中出现的次数成正比增加，但同时会随着其在语料库中出现的频率成反比下降：

逆向文档频率IDF是一个词语普遍重要性的度量，由总文件数目除以包含该词语之文件的数目>1，再将得到的商取对数得到，其表达式如公式4所示：

由定义可得：tfidf_i,j＝tf_i,j×idf_i；

2.如权利要求1所述的基于机器学习的微信消息分析方法，其特征在于，所述卷积神经网络采用多种大小不同的卷积核对多个词向量对应的多个词汇矩阵进行卷积提取语义特征，每一个卷积核对应一种语义特征。

3.如权利要求1所述的基于机器学习的微信消息分析方法，其特征在于，所述卷积神经网络采用非线性激活函数计算经卷积后的语义特征值。

4.如权利要求1所述的基于机器学习的微信消息分析方法，其特征在于，所述卷积神经网络的池化层采用最大池化法选取语义特征值。

5.如权利要求1所述的基于机器学习的微信消息分析方法，其特征在于，所述卷积神经网络的输出层采用Dropout方法将隐藏单元按照一定的概率淘汰。

6.如权利要求1所述的基于机器学习的微信消息分析方法，其特征在于，所述卷积神经网络的输出层采用Softmax损失函数计算交叉熵，以求得输入层的数据在各类标签下的概率分布情况。

7.如权利要求1所述的基于机器学习的微信消息分析方法，其特征在于，所述标签的类别包括金融类别标签和其他类别标签，所述金融类别标签包括本息保障、层级推广、高额返利及产品项目夸大，其中不属于金融类别的微信消息统一归为其他类标签。

8.基于权利要求1～7任一项所述的基于机器学习的微信消息分析方法的系统，其特征在于，包括：

训练语料库，其用于存储训练语料；

模型训练组件，其用于构建词汇向量表，以及用于构建卷积神经网络，以及用于对训练语料的文本内容进行预处理得到对应的多个词汇，查询词汇向量表得到多个词汇对应的词向量，以每条训练语料的词向量构成的词向量矩阵为输入层，以每条训练语料所属的标签为最大概率的所有标签的概率分布情况为输出层，训练所述卷积神经网络，其中，所述卷积神经网络采用Glove模型和TF-IDF算法对输入层的词语进行向量化；

9.如权利要求8所述的基于机器学习的微信金融消息分析系统，其特征在于，所述文本预处理组件还用于将所述训练语料库中所有的训练语料进行文本预处理，所述模型训练组件用于将得到的所有词汇汇总得到所述词汇向量表。