CN111538836A - 一种识别文本类广告中金融广告的方法 - Google Patents

一种识别文本类广告中金融广告的方法 Download PDF

Info

Publication number
CN111538836A
CN111538836A CN202010321249.8A CN202010321249A CN111538836A CN 111538836 A CN111538836 A CN 111538836A CN 202010321249 A CN202010321249 A CN 202010321249A CN 111538836 A CN111538836 A CN 111538836A
Authority
CN
China
Prior art keywords
text
advertisements
model
representation
financial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010321249.8A
Other languages
English (en)
Other versions
CN111538836B (zh
Inventor
江颖硕
施力
张兆心
唐积强
吴震
卢卫
杨菁林
董群
郭长勇
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Harbin Institute of Technology Weihai
Original Assignee
National Computer Network and Information Security Management Center
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center, Harbin Institute of Technology Weihai filed Critical National Computer Network and Information Security Management Center
Priority to CN202010321249.8A priority Critical patent/CN111538836B/zh
Publication of CN111538836A publication Critical patent/CN111538836A/zh
Application granted granted Critical
Publication of CN111538836B publication Critical patent/CN111538836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种识别文本类广告中金融广告的方法,其解决了现有广告分析模型无法有效识别金融广告的技术问题,其包括以下步骤:(1)从数据库中获取爬取到的广告文本数据;(2)对步骤(1)的文本数据进行预处理,进行分词以及去除无用信息;(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示;(4)针对步骤(3)的不同文本表示方式选择合适的分类算法,然后将文本表示的语义信息提炼成类别信息;(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合,获得最终的金融广告识别模型。本发明可广泛应于在文本类广告中识别金融广告的场合。

Description

一种识别文本类广告中金融广告的方法
技术领域
本发明涉及广告识别领域,特别是涉及一种识别文本类广告中金融广告的方法。
背景技术
随着互联网的高速发展,互联网金融行业也随之呈现出一片繁荣的景象。但是在繁荣的同时,其也存在大量的安全问题,如以“裸贷”、“校园贷”为代表的网络诈骗、非法集资等违法犯罪行为,而这些行为通常存在于金融广告中。
现如今,各个网站中都存在大量的文本类广告,但这些文本类广告不仅仅只是金融广告,也可能是普通的广告,通过爬虫技术获取的文本类广告包含所有广告,而我们进行广告分析时只需要分析金融广告,但是我们用来分析的模型无法识别哪些是金融广告,哪些不是,所以普通广告的存在会影响广告分析的效率以及广告分析的结果。
发明内容
本发明为了解决现有广告分析模型无法有效识别金融广告的技术问题,提供一种对获得的广告数据进行金融类广告判断,为后续进行金融广告的分析提供可靠数据支持的识别文本类广告中金融广告的方法。
本发明提供一种识别文本类广告中金融广告的方法,包括以下步骤:(1)从数据库中获取爬取到的广告文本数据;(2)对步骤(1)的文本数据进行预处理,进行分词以及去除无用信息;(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示;文本表示方法包括:1)基于词频的表示方法;2)布尔编码的表示方法;3)基于TFIDF的表示方法;4)基于Word2Vec模型的表示方法;5)基于ELMo模型的表示方法;(4)针对步骤(3)的不同文本表示方式选择合适的分类算法,然后将文本表示的语义信息提炼成类别信息;(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合,获得最终的金融广告识别模型。
优选地,Word2Vec模型将词用神经网络模型训练成向量,通过向量表示词,通过向量之间的距离表示词与词之间的关系。
优选地,ELMo模型能够综合考虑单词特征,句法特征和语义特征。
优选地,步骤(1)中的广告文本数据来自于搜索引擎、百度贴吧、金融门户、新闻门户站点。
优选地,步骤(2)中对数据预处理包括以下步骤:
i.分词:将无间隔的文本数据转化为连续的词组;
ii.去停用词:去掉不具有语义信息。
优选地,步骤(4)给不同文本表示方式选择合适的分类算法,选择的分类算法如下:
a.针对词频表示,采用多项式朴素贝叶斯模型;
b.针对布尔表示,采用伯努利朴素贝叶斯分类模型;
c.针对TFIDF构建连续值进行文本表示,采用逻辑回归和支持向量机模型;
d.针对词向量表示,采用简单的卷积神经网络与循环神经网络。
优选地,步骤(5)中将不同文本表示方式进一步表示的分类模型进行整合,采用XGBoost模型进行集成,所述XGBoost模型基模型采用传统的CART树,对所述XGBoost模型进行多轮训练,获得最终的结果。
本发明的有益效果是:
本发明综合考虑各种文本表示方式都对语义信息不能完全表示的问题,充分利用各文本表示之间的差异,选择了多种文本表示方式对文本进行表示,更加全面的展示文本背后的语义信息,提高了最终预测的准确率。使用每种单一的文本表示都存在场景特殊性的缺陷,从不同的文本表示模型出发,解决了其中存在的缺陷,使得模型具有更好的分类效果。本次发明选择的机器学习模型与深度学习模型都是结构简单的模型,以防止分类模型出现过拟合现象。
附图说明
图1是本发明实施例的整体功能结构逻辑示意图。
具体实施方式
下面结合附图和实施例对可本发明做进一步说明,以使本发明所属技术领域的技术人员能够容易实施本发明。
实施例1:如图1所示,是本实施例的整体功能结构逻辑示意图,本实施例公开的识别文本类广告中金融广告的方法,包括以下步骤:
(1)从数据库中获取爬取到的广告文本数据;广告文本数据主要来自于搜索引擎、百度贴吧、金融门户、新闻门户等站点。
(2)对文本数据进行预处理,进行分词以及去除无用信息,使文本能更好的表示语义信息。对数据预处理主要包括以下步骤:
i.分词:在中文中,词是构成语言的最小单位,是具有语义的最小单位,字无法较好的表示其所携带的语义信息。所以需要将无间隔的文本数据转化为连续的词组;
ii.去停用词:中文中有一些词不具有语义信息,如“的”,“呢”等词,为了避免这些词对最终分类结果的干扰,需要将其去掉。
(3)将预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示。选用多种文本表示是因为任何一种文本表示方法都无法完全表示文本所具有的全部语意信息,同时各个文本表示方法之间也存在差异。复杂模型对文本的表示所能呈现出的语义信息通常比简单模型所呈现的多,但是简单模型对文本的表示也会具有复杂模型中不存在的语义信息。本实施例主要有以下几种文本表示方法:
a.基于词频的表示方法;
b.布尔编码的表示方法;
c.基于TFIDF的表示方法;
上述三种文本表示方法都是对文章的表示方式,是文本向量空间表示方式,其忽略了词之间的位置信息。所以本次发明还使用了词向量的方式对文本进行表示:
d.Word2Vec模型:将词通过神经网络模型训练成向量,用向量表示词,同时词与词之间的关系通过向量之间的距离进行表示;
e.ELMo模型:Word2Vec不能表示一词多义的问题,所以本次发明又使用了ELMo模型进行文本表示,ELMo模型能够综合考虑单词特征,句法特征和语义特征。
(4)针对不同文本表示方式选择合适的分类算法,然后将文本表示所表示的语义信息进一步提炼成类别信息。不同文本表示方式选择合适的分类算法,选择的分类算法如下:
a.针对词频表示,其文本向量是通过离散值进行表示的,所以本次发明选择了适合离散值的多项式朴素贝叶斯模型;
b.针对布尔表示:其构建的文本向量是通过布尔值表示的,所以本次发明选择了适合布尔值的伯努利朴素贝叶斯分类模型;
c.对于TFIDF这种构建连续值进行文本表示的模型,本次发明选择了适合连续值的逻辑回归和支持向量机模型对文本TFIDF的表示进行分类;
d.对于词向量的方式,传统的机器学习模型并不适用,所以本次发明使用简单的卷积神经网络(CNN)与循环神经网络(RNN)。
(5)将不同文本表示方式进一步表示的分类模型进行整合,获得最终的金融广告识别模型。不同文本表示方式进一步表示的分类模型进行整合,其中最基本的想法就是投票,其是一种简单的集成方式。为区分各个模型的重要性,同时利用预测的概率信息,本实施例选择的是XGBoost模型进行集成,其基模型选择了传统的CART树。将逻辑回归,支持向量机,CNN与RNN模型训练后进行预测的概率值,以及贝叶斯模型的分类结果作为输入,对XGBoost模型进行多轮训练,获得最终的结果。
实施例2:
本实施例以识别百度搜索引擎中的文本类广告中金融广告为例进行技术方案以及步骤的描述,一种识别百度搜索引擎中文本类广告中金融广告的方法,包括以下步骤:
步骤1:从数据库中获取1000条已经爬好的百度搜索引擎的广告文本内容,其中训练集、测试集比例为3:1;
步骤2:将训练集文本内容通过jieba分词工具进行分词处理:
jiaba分词工具:是一个用于自然语言处理的python包,可直接通过pip进行下载使用。
步骤3:将步骤2分词后得到的词组通过哈工大自然语言处理实验室公开的停用词表进行过滤,去掉停用词表中的词,哈工大自然语言处理实验室停用词表可直接在https://github.com/goto456/stopwords上下载使用;
步骤4:将训练集通过多项式朴素贝叶斯模型进行词频表示,代码通过sklearn库实现:
多项式朴素贝叶斯模型使用sklearn库中naive_bayes模块中的MultinomialNB实现,
词频表示使用sklearn库中feature_extraction中text模块中的CountVectorizer实现;
步骤5:将训练集通过伯努利朴素贝叶斯分类模型进行布尔表示,代码通过sklearn库实现:
伯努利朴素贝叶斯分类模型使用sklearn库中naive_bayes模块中的BernoulliNB实现,
布尔表示使用sklearn库中feature_extraction中text模块中的CountVectorizer实现;
步骤6:通过逻辑回归和支持向量机模型对训练集文本TFIDF的表示进行分类,代码通过sklearn库实现:
逻辑回归模型使用sklearn库中linear_model模块中的LogisticRegression实现,
支持向量机模型使用sklearn库中svm模块中的SVC实现,
TFIDF使用sklearn库中feature_extraction中text模块中的TfidfVectorizer实现;
步骤7:将训练集文本分别通过哈工大自然语言处理实验室预训练好的Word2Vec模型和ELMo模型训练成向量,Word2Vec模型和ELMo模型可直接在https://github.com/ HIT-SCIR/ELMoForManyLangs上下载使用,然后通过卷积神经网络(CNN)进行分类,其中模型通过TensorFlow实现。
步骤8:将训练集文本分别通过哈工大自然语言处理实验室预训练好的Word2Vec模型和ELMo模型训练成向量,然后通过循环神经网络(RNN)进行分类,其中模型通过TensorFlow实现。
步骤9:将步骤4到步骤9文本表示的分类模型通过XGBoost模型进行集成,基模型选择传统的CART树,将逻辑回归,支持向量机,CNN与RNN模型训练后进行预测的概率值,以及贝叶斯模型的分类结果作为输入,对XGBoost模型进行多轮训练,获得最终的结果,其中XGBoost模型通过xgboost库进行实现。
步骤10:将测试集文本通过步骤9获得的结果进行测试。
通过不同的文本表示,已经为每种文本表示选择合适的模型,使得集成的结果在准确率、精确率和召回率上的表现都是较好的,以及充分利用各种文本表示所蕴含的语义信息和各模型之间的差异性,其预测的结果是更好的,即金融广告的识别率较高。
以上所述仅对本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡是在本发明的权利要求限定范围内,所做的任何修改、等同替换、改进等,均应在本发明的保护范围之内。

Claims (7)

1.一种识别文本类广告中金融广告的方法,其特征是,包括以下步骤:
(1)从数据库中获取爬取到的广告文本数据;
(2)对步骤(1)的文本数据进行预处理,进行分词以及去除无用信息;
(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示;所述文本表示方法包括:
1)基于词频的表示方法;
2)布尔编码的表示方法;
3)基于TFIDF的表示方法;
4)基于Word2Vec模型的表示方法;
5)基于ELMo模型的表示方法;
(4)针对步骤(3)的不同文本表示方式选择合适的分类算法,然后将文本表示的语义信息提炼成类别信息;
(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合,获得最终的金融广告识别模型。
2.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述Word2Vec模型将词用神经网络模型训练成向量,通过向量表示词,通过向量之间的距离表示词与词之间的关系。
3.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述ELMo模型能够综合考虑单词特征,句法特征和语义特征。
4.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(1)中的广告文本数据来自于搜索引擎、百度贴吧、金融门户、新闻门户站点。
5.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(2)中对数据预处理包括以下步骤:
i.分词:将无间隔的文本数据转化为连续的词组;
ii.去停用词:去掉不具有语义信息。
6.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(4)给不同文本表示方式选择合适的分类算法,选择的分类算法如下:
a.针对词频表示,采用多项式朴素贝叶斯模型;
b.针对布尔表示,采用伯努利朴素贝叶斯分类模型;
c.针对TFIDF构建连续值进行文本表示,采用逻辑回归和支持向量机模型;
d.针对词向量表示,采用简单的卷积神经网络与循环神经网络。
7.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(5)中将不同文本表示方式进一步表示的分类模型进行整合,采用XGBoost模型进行集成,所述XGBoost模型基模型采用传统的CART树,对所述XGBoost模型进行多轮训练,获得最终的结果。
CN202010321249.8A 2020-04-22 2020-04-22 一种识别文本类广告中金融广告的方法 Active CN111538836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010321249.8A CN111538836B (zh) 2020-04-22 2020-04-22 一种识别文本类广告中金融广告的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010321249.8A CN111538836B (zh) 2020-04-22 2020-04-22 一种识别文本类广告中金融广告的方法

Publications (2)

Publication Number Publication Date
CN111538836A true CN111538836A (zh) 2020-08-14
CN111538836B CN111538836B (zh) 2024-02-02

Family

ID=71979464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010321249.8A Active CN111538836B (zh) 2020-04-22 2020-04-22 一种识别文本类广告中金融广告的方法

Country Status (1)

Country Link
CN (1) CN111538836B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112597761A (zh) * 2020-12-07 2021-04-02 合肥工业大学 临时报告语义信息挖掘方法、装置、存储介质和电子设备
CN112907301A (zh) * 2021-03-29 2021-06-04 哈尔滨工业大学 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统
CN113190672A (zh) * 2021-05-12 2021-07-30 上海热血网络科技有限公司 一种广告判定模型、广告过滤的方法及系统
CN113378024A (zh) * 2021-05-24 2021-09-10 哈尔滨工业大学 一种基于深度学习面向公检法领域的相关事件识别方法
CN114797114A (zh) * 2021-01-29 2022-07-29 盛趣信息技术(上海)有限公司 一种游戏聊天广告的实时智能识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363810A (zh) * 2018-03-09 2018-08-03 南京工业大学 一种文本分类方法及装置
CN108664633A (zh) * 2018-05-15 2018-10-16 南京大学 一种利用多样化文本特征进行文本分类的方法
US20190172301A1 (en) * 2017-12-05 2019-06-06 Igt Gaming system and method providing a class ii bingo game with an interim video poker game
CN110704615A (zh) * 2019-09-04 2020-01-17 北京航空航天大学 互联网金融非显性广告识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190172301A1 (en) * 2017-12-05 2019-06-06 Igt Gaming system and method providing a class ii bingo game with an interim video poker game
CN108363810A (zh) * 2018-03-09 2018-08-03 南京工业大学 一种文本分类方法及装置
CN108664633A (zh) * 2018-05-15 2018-10-16 南京大学 一种利用多样化文本特征进行文本分类的方法
CN110704615A (zh) * 2019-09-04 2020-01-17 北京航空航天大学 互联网金融非显性广告识别方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112597761A (zh) * 2020-12-07 2021-04-02 合肥工业大学 临时报告语义信息挖掘方法、装置、存储介质和电子设备
CN114797114A (zh) * 2021-01-29 2022-07-29 盛趣信息技术(上海)有限公司 一种游戏聊天广告的实时智能识别方法及系统
CN112907301A (zh) * 2021-03-29 2021-06-04 哈尔滨工业大学 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统
CN113190672A (zh) * 2021-05-12 2021-07-30 上海热血网络科技有限公司 一种广告判定模型、广告过滤的方法及系统
CN113378024A (zh) * 2021-05-24 2021-09-10 哈尔滨工业大学 一种基于深度学习面向公检法领域的相关事件识别方法
CN113378024B (zh) * 2021-05-24 2023-09-01 哈尔滨工业大学 一种基于深度学习面向公检法领域的相关事件识别方法

Also Published As

Publication number Publication date
CN111538836B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN111538836B (zh) 一种识别文本类广告中金融广告的方法
CN107679039B (zh) 用于确定语句意图的方法和装置
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN111832290B (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN108319668A (zh) 生成文本摘要的方法及设备
CN108874996B (zh) 网站分类方法及装置
CN107577702B (zh) 一种社交媒体中交通信息的辨别方法
CN109471942A (zh) 基于证据推理规则的中文评论情感分类方法及装置
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN107862058B (zh) 用于生成信息的方法和装置
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN112632224B (zh) 基于案例知识图谱的案件推荐方法、装置和电子设备
CN112528653B (zh) 短文本实体识别方法和系统
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN113806588A (zh) 搜索视频的方法和装置
CN111782793A (zh) 智能客服处理方法和系统及设备
CN115080750B (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
CN110674300B (zh) 用于生成信息的方法和装置
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN113806538B (zh) 标签提取模型训练方法、装置、设备与存储介质
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN114764463A (zh) 基于事件传播特征的互联网舆情事件自动预警系统
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
CN112966507A (zh) 构建识别模型及攻击识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant