CN111538836A

CN111538836A - 一种识别文本类广告中金融广告的方法

Info

Publication number: CN111538836A
Application number: CN202010321249.8A
Authority: CN
Inventors: 江颖硕; 施力; 张兆心; 唐积强; 吴震; 卢卫; 杨菁林; 董群; 郭长勇; 王伟
Original assignee: National Computer Network and Information Security Management Center; Harbin Institute of Technology Weihai
Current assignee: National Computer Network and Information Security Management Center; Harbin Institute of Technology Weihai
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-14
Anticipated expiration: 2040-04-22
Also published as: CN111538836B

Abstract

本发明涉及一种识别文本类广告中金融广告的方法，其解决了现有广告分析模型无法有效识别金融广告的技术问题，其包括以下步骤：(1)从数据库中获取爬取到的广告文本数据；(2)对步骤(1)的文本数据进行预处理，进行分词以及去除无用信息；(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式，即文本表示；(4)针对步骤(3)的不同文本表示方式选择合适的分类算法，然后将文本表示的语义信息提炼成类别信息；(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合，获得最终的金融广告识别模型。本发明可广泛应于在文本类广告中识别金融广告的场合。

Description

一种识别文本类广告中金融广告的方法

技术领域

本发明涉及广告识别领域，特别是涉及一种识别文本类广告中金融广告的方法。

背景技术

随着互联网的高速发展，互联网金融行业也随之呈现出一片繁荣的景象。但是在繁荣的同时，其也存在大量的安全问题，如以“裸贷”、“校园贷”为代表的网络诈骗、非法集资等违法犯罪行为，而这些行为通常存在于金融广告中。

现如今，各个网站中都存在大量的文本类广告，但这些文本类广告不仅仅只是金融广告，也可能是普通的广告，通过爬虫技术获取的文本类广告包含所有广告，而我们进行广告分析时只需要分析金融广告，但是我们用来分析的模型无法识别哪些是金融广告，哪些不是，所以普通广告的存在会影响广告分析的效率以及广告分析的结果。

发明内容

本发明为了解决现有广告分析模型无法有效识别金融广告的技术问题，提供一种对获得的广告数据进行金融类广告判断，为后续进行金融广告的分析提供可靠数据支持的识别文本类广告中金融广告的方法。

本发明提供一种识别文本类广告中金融广告的方法，包括以下步骤：(1)从数据库中获取爬取到的广告文本数据；(2)对步骤(1)的文本数据进行预处理，进行分词以及去除无用信息；(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式，即文本表示；文本表示方法包括：1)基于词频的表示方法；2)布尔编码的表示方法；3)基于TFIDF的表示方法；4)基于Word2Vec模型的表示方法；5)基于ELMo模型的表示方法；(4)针对步骤(3)的不同文本表示方式选择合适的分类算法，然后将文本表示的语义信息提炼成类别信息；(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合，获得最终的金融广告识别模型。

优选地，Word2Vec模型将词用神经网络模型训练成向量，通过向量表示词，通过向量之间的距离表示词与词之间的关系。

优选地，ELMo模型能够综合考虑单词特征，句法特征和语义特征。

优选地，步骤(1)中的广告文本数据来自于搜索引擎、百度贴吧、金融门户、新闻门户站点。

优选地，步骤(2)中对数据预处理包括以下步骤：

i.分词：将无间隔的文本数据转化为连续的词组；

ii.去停用词：去掉不具有语义信息。

优选地，步骤(4)给不同文本表示方式选择合适的分类算法，选择的分类算法如下：

a.针对词频表示，采用多项式朴素贝叶斯模型；

b.针对布尔表示，采用伯努利朴素贝叶斯分类模型；

c.针对TFIDF构建连续值进行文本表示，采用逻辑回归和支持向量机模型；

d.针对词向量表示，采用简单的卷积神经网络与循环神经网络。

优选地，步骤(5)中将不同文本表示方式进一步表示的分类模型进行整合，采用XGBoost模型进行集成，所述XGBoost模型基模型采用传统的CART树，对所述XGBoost模型进行多轮训练，获得最终的结果。

本发明的有益效果是：

本发明综合考虑各种文本表示方式都对语义信息不能完全表示的问题，充分利用各文本表示之间的差异，选择了多种文本表示方式对文本进行表示，更加全面的展示文本背后的语义信息，提高了最终预测的准确率。使用每种单一的文本表示都存在场景特殊性的缺陷，从不同的文本表示模型出发，解决了其中存在的缺陷，使得模型具有更好的分类效果。本次发明选择的机器学习模型与深度学习模型都是结构简单的模型，以防止分类模型出现过拟合现象。

附图说明

图1是本发明实施例的整体功能结构逻辑示意图。

具体实施方式

下面结合附图和实施例对可本发明做进一步说明，以使本发明所属技术领域的技术人员能够容易实施本发明。

实施例1：如图1所示，是本实施例的整体功能结构逻辑示意图，本实施例公开的识别文本类广告中金融广告的方法，包括以下步骤：

(1)从数据库中获取爬取到的广告文本数据；广告文本数据主要来自于搜索引擎、百度贴吧、金融门户、新闻门户等站点。

(2)对文本数据进行预处理，进行分词以及去除无用信息，使文本能更好的表示语义信息。对数据预处理主要包括以下步骤：

i.分词：在中文中，词是构成语言的最小单位，是具有语义的最小单位，字无法较好的表示其所携带的语义信息。所以需要将无间隔的文本数据转化为连续的词组；

ii.去停用词：中文中有一些词不具有语义信息，如“的”，“呢”等词，为了避免这些词对最终分类结果的干扰，需要将其去掉。

(3)将预处理后的文本通过不同的方式表示为计算机可以处理的方式，即文本表示。选用多种文本表示是因为任何一种文本表示方法都无法完全表示文本所具有的全部语意信息，同时各个文本表示方法之间也存在差异。复杂模型对文本的表示所能呈现出的语义信息通常比简单模型所呈现的多，但是简单模型对文本的表示也会具有复杂模型中不存在的语义信息。本实施例主要有以下几种文本表示方法：

a.基于词频的表示方法；

b.布尔编码的表示方法；

c.基于TFIDF的表示方法；

上述三种文本表示方法都是对文章的表示方式，是文本向量空间表示方式，其忽略了词之间的位置信息。所以本次发明还使用了词向量的方式对文本进行表示：

d.Word2Vec模型：将词通过神经网络模型训练成向量，用向量表示词，同时词与词之间的关系通过向量之间的距离进行表示；

e.ELMo模型：Word2Vec不能表示一词多义的问题，所以本次发明又使用了ELMo模型进行文本表示，ELMo模型能够综合考虑单词特征，句法特征和语义特征。

(4)针对不同文本表示方式选择合适的分类算法，然后将文本表示所表示的语义信息进一步提炼成类别信息。不同文本表示方式选择合适的分类算法，选择的分类算法如下：

a.针对词频表示，其文本向量是通过离散值进行表示的，所以本次发明选择了适合离散值的多项式朴素贝叶斯模型；

b.针对布尔表示：其构建的文本向量是通过布尔值表示的，所以本次发明选择了适合布尔值的伯努利朴素贝叶斯分类模型；

c.对于TFIDF这种构建连续值进行文本表示的模型，本次发明选择了适合连续值的逻辑回归和支持向量机模型对文本TFIDF的表示进行分类；

d.对于词向量的方式，传统的机器学习模型并不适用，所以本次发明使用简单的卷积神经网络(CNN)与循环神经网络(RNN)。

(5)将不同文本表示方式进一步表示的分类模型进行整合，获得最终的金融广告识别模型。不同文本表示方式进一步表示的分类模型进行整合，其中最基本的想法就是投票，其是一种简单的集成方式。为区分各个模型的重要性，同时利用预测的概率信息，本实施例选择的是XGBoost模型进行集成，其基模型选择了传统的CART树。将逻辑回归，支持向量机，CNN与RNN模型训练后进行预测的概率值，以及贝叶斯模型的分类结果作为输入，对XGBoost模型进行多轮训练，获得最终的结果。

实施例2：

本实施例以识别百度搜索引擎中的文本类广告中金融广告为例进行技术方案以及步骤的描述，一种识别百度搜索引擎中文本类广告中金融广告的方法，包括以下步骤：

步骤1：从数据库中获取1000条已经爬好的百度搜索引擎的广告文本内容，其中训练集、测试集比例为3:1；

步骤2：将训练集文本内容通过jieba分词工具进行分词处理：

jiaba分词工具：是一个用于自然语言处理的python包，可直接通过pip进行下载使用。

步骤3：将步骤2分词后得到的词组通过哈工大自然语言处理实验室公开的停用词表进行过滤，去掉停用词表中的词，哈工大自然语言处理实验室停用词表可直接在https://github.com/goto456/stopwords上下载使用；

步骤4：将训练集通过多项式朴素贝叶斯模型进行词频表示，代码通过sklearn库实现：

多项式朴素贝叶斯模型使用sklearn库中naive_bayes模块中的MultinomialNB实现，

词频表示使用sklearn库中feature_extraction中text模块中的CountVectorizer实现；

步骤5：将训练集通过伯努利朴素贝叶斯分类模型进行布尔表示，代码通过sklearn库实现：

伯努利朴素贝叶斯分类模型使用sklearn库中naive_bayes模块中的BernoulliNB实现，

布尔表示使用sklearn库中feature_extraction中text模块中的CountVectorizer实现；

步骤6：通过逻辑回归和支持向量机模型对训练集文本TFIDF的表示进行分类，代码通过sklearn库实现：

逻辑回归模型使用sklearn库中linear_model模块中的LogisticRegression实现，

支持向量机模型使用sklearn库中svm模块中的SVC实现，

TFIDF使用sklearn库中feature_extraction中text模块中的TfidfVectorizer实现；

步骤7：将训练集文本分别通过哈工大自然语言处理实验室预训练好的Word2Vec模型和ELMo模型训练成向量，Word2Vec模型和ELMo模型可直接在https://github.com/ HIT-SCIR/ELMoForManyLangs上下载使用，然后通过卷积神经网络(CNN)进行分类，其中模型通过TensorFlow实现。

步骤8：将训练集文本分别通过哈工大自然语言处理实验室预训练好的Word2Vec模型和ELMo模型训练成向量，然后通过循环神经网络(RNN)进行分类，其中模型通过TensorFlow实现。

步骤9：将步骤4到步骤9文本表示的分类模型通过XGBoost模型进行集成，基模型选择传统的CART树，将逻辑回归，支持向量机，CNN与RNN模型训练后进行预测的概率值，以及贝叶斯模型的分类结果作为输入，对XGBoost模型进行多轮训练，获得最终的结果，其中XGBoost模型通过xgboost库进行实现。

步骤10：将测试集文本通过步骤9获得的结果进行测试。

通过不同的文本表示，已经为每种文本表示选择合适的模型，使得集成的结果在准确率、精确率和召回率上的表现都是较好的，以及充分利用各种文本表示所蕴含的语义信息和各模型之间的差异性，其预测的结果是更好的，即金融广告的识别率较高。

以上所述仅对本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡是在本发明的权利要求限定范围内，所做的任何修改、等同替换、改进等，均应在本发明的保护范围之内。

Claims

1.一种识别文本类广告中金融广告的方法，其特征是，包括以下步骤：

(1)从数据库中获取爬取到的广告文本数据；

(2)对步骤(1)的文本数据进行预处理，进行分词以及去除无用信息；

(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式，即文本表示；所述文本表示方法包括：

1)基于词频的表示方法；

2)布尔编码的表示方法；

3)基于TFIDF的表示方法；

4)基于Word2Vec模型的表示方法；

5)基于ELMo模型的表示方法；

(4)针对步骤(3)的不同文本表示方式选择合适的分类算法，然后将文本表示的语义信息提炼成类别信息；

(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合，获得最终的金融广告识别模型。

2.根据权利要求1所述识别文本类广告中金融广告的方法，其特征在于，所述Word2Vec模型将词用神经网络模型训练成向量，通过向量表示词，通过向量之间的距离表示词与词之间的关系。

3.根据权利要求1所述识别文本类广告中金融广告的方法，其特征在于，所述ELMo模型能够综合考虑单词特征，句法特征和语义特征。

4.根据权利要求1所述识别文本类广告中金融广告的方法，其特征在于，所述步骤(1)中的广告文本数据来自于搜索引擎、百度贴吧、金融门户、新闻门户站点。

5.根据权利要求1所述识别文本类广告中金融广告的方法，其特征在于，所述步骤(2)中对数据预处理包括以下步骤：

i.分词：将无间隔的文本数据转化为连续的词组；

ii.去停用词：去掉不具有语义信息。

6.根据权利要求1所述识别文本类广告中金融广告的方法，其特征在于，所述步骤(4)给不同文本表示方式选择合适的分类算法，选择的分类算法如下：

a.针对词频表示，采用多项式朴素贝叶斯模型；

b.针对布尔表示，采用伯努利朴素贝叶斯分类模型；

7.根据权利要求1所述识别文本类广告中金融广告的方法，其特征在于，所述步骤(5)中将不同文本表示方式进一步表示的分类模型进行整合，采用XGBoost模型进行集成，所述XGBoost模型基模型采用传统的CART树，对所述XGBoost模型进行多轮训练，获得最终的结果。