CN110704615A

CN110704615A - 互联网金融非显性广告识别方法及装置

Info

Publication number: CN110704615A
Application number: CN201910832504.2A
Authority: CN
Inventors: 部慧; 吴俊杰; 李晔林; 罗炎林; 张珏
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beihang University; Beijing University of Aeronautics and Astronautics
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2020-01-17
Anticipated expiration: 2039-09-04
Also published as: CN110704615B

Abstract

本发明公开了一种互联网金融非显性广告识别方法，包括：爬取互联网公开文本，过滤互联网公开文本中无意义信息；在过滤后的互联网公开文本中抽样，训练金融文本分类器，区分过滤后的互联网公开文本中的金融文本和非金融文本；将金融文本区分为长文本和短文本；在短文本和长文本中分别抽样，分别训练短文本广告分类器和长文本广告分类器，区分短文本中的广告文本和非广告文本，及区分长文本中的广告文本和非广告文本；在长文本中和短文本中的广告文本中抽样，训练广告文本煽动性分类器，区分长文本和短文本中的广告文本的煽动性程度。本发明还公开了一种互联网金融非显性广告识别装置。本发明能够对互联网金融广告精准识别以及广告内容深度分析。

Description

互联网金融非显性广告识别方法及装置

技术领域

本发明涉及文本识别技术领域。更具体地说，本发明涉及一种互联网金融非显性广告识别方法及装置。

背景技术

随着网络在线广告的发展，公开互联网渠道中不同形式的广告层出不穷，传统横幅广告的比重在21世纪初就从所有广告的一半以上降低到20％左右，而非显性广告的数量和类型均与日俱增。常见的互联网非显性广告包括植入式的“隐性广告”、间接表义的“软文广告”，以及由自媒体或普通用户发布的评论内容等等。这些广告很难通过网站分区或发布者id等结构化特征进行识别，尤其是当下网络信息中非显性的商业性内容与一般社论的边界模糊，这类包含隐性营销企图的广告即便是真实的网络用户也很难马上区分。如何从海量互联网文本数据中准确识别非显性广告文本，并进一步识别广告内容的煽动性，是当前研究的重点。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种互联网金融非显性广告识别方法及装置，能够对互联网金融广告精准识别以及广告内容深度分析。

为了实现根据本发明的这些目的和其它优点，提供了一种互联网金融非显性广告识别方法，包括：

爬取互联网公开文本，过滤互联网公开文本中无意义信息；

在过滤后的互联网公开文本中抽样，训练金融文本分类器，区分过滤后的互联网公开文本中的金融文本和非金融文本；

将金融文本区分为长文本和短文本；

在短文本中抽样，训练短文本广告分类器，区分短文本中的广告文本和非广告文本，及在长文本中抽样，训练长文本广告分类器，区分长文本中的广告文本和非广告文本；

在长文本中的广告文本和短文本中的广告文本中抽样，训练广告文本煽动性分类器，区分长文本中的广告文本和短文本中的广告文本的煽动性程度。

优选的是，过滤互联网公开文本中无意义信息后还包括：对过滤后的互联网公开文本进行分词和统计词频，去掉分词结果中的停用词、低频词和高频词。

优选的是，对过滤后的互联网公开文本分词过程中加入自定义的用户词典，用户词典中包含涉金融业务实体名录、金融领域专业词汇。

优选的是，通过文本匹配和/或正则表达式方法过滤互联网公开文本中无意义信息，其中，互联网公开文本中无意义信息包括：除句号、问号、感叹号和分号以外的其他中文和英文标点符号；url网址；转发标志；提醒好友标志；表情符及表情符的文字形式。

优选的是，在过滤后的互联网公开文本中抽样，训练金融文本分类器，区分过滤后的互联网公开文本中的金融文本和非金融文本的过程包括：在过滤后的互联网公开文本中抽取第一样本，对第一样本进行人工标注附上金融类标签或非金融类标签，用标注后的第一样本训练第一线性支持向量机，得到金融文本分类器，使用金融文本分类器对过滤后的互联网公开文本进行分类得到金融文本和非金融文本。

优选的是，将金融文本区分为长文本和短文本的过程包括：将金融文本中包含字符串长度超过300的文本定义为长文本，将金融文本中包含字符串长度不超过300的文本定义为短文本。

优选的是，在短文本中抽样，训练短文本广告分类器，区分短文本中的广告文本和非广告文本的过程包括：在短文本中抽取第二样本，对第二样本进行人工标注附上广告文本标签或非广告文本标签，用标注后的第二样本训练第二线性支持向量机，得到短文本广告分类器，使用短文本广告分类器对短文本进行分类得到短文本中的广告文本和非广告文本。

优选的是，在长文本中抽样，训练长文本广告分类器，区分长文本中的广告文本和非广告文本的过程包括：在长文本中抽取第三样本，将第三样本按保留的标点符号分句，对第三样本中的每句话进行人工标注附上广告句标签或非广告句标签，用标注后的第三样本中的每句话和标注后的第二样本共同训练第三线性支持向量机，得到长文本广告分类器，使用长文本广告分类器对长文本中的每句话进行分类得到广告句和非广告句，统计长文本中广告句的占比，广告句占比超过50％则将长文本分类为长文本中的广告文本，否则为长文本中的非广告文本。

优选的是，在长文本中的广告文本和短文本中的广告文本中抽样，训练广告文本煽动性分类器，区分长文本中的广告文本和短文本中的广告文本的煽动性程度的过程包括：在长文本中的广告文本和短文本中的广告文本中抽取第四样本，对第四样本进行人工标注附上弱煽动性标签或强煽动性标签或极强煽动性标签，用标注后的第四样本训练第四线性支持向量机得到广告文本煽动性分类器，使用广告文本煽动性分类器将长文本中的广告文本和短文本中的广告文本的煽动性程度进行分类。

本发明还提供一种互联网金融非显性广告识别装置，包括：

爬取模块，其用于从互联网上爬取互联网公开文本；

无意义信息过滤模块，其过滤互联网公开文本中无意义信息；

分词模块，其用于对过滤后的互联网公开文本进行分词和统计词频，去掉分词结果中的停用词、低频词和高频词；

非金融文本过滤模块，其在过滤后的互联网公开文本中抽样，训练金融文本分类器，区分过滤后的互联网公开文本中的金融文本和非金融文本；

长短文本区分模块，其用于将金融文本区分为长文本和短文本；

短文本广告识别模块，其在短文本中抽样，训练短文本广告分类器，区分短文本中的广告文本和非广告文本；

长文本广告识别模块，其在长文本中抽样，训练长文本广告分类器，区分长文本中的广告文本和非广告文本；

广告煽动性程度识别模块，在长文本中的广告文本和短文本中的广告文本中抽样，训练广告文本煽动性分类器，区分长文本中的广告文本和短文本中的广告文本的煽动性程度。

本发明至少包括以下有益效果：

1、可扩展为适用于各种行业背景下的互联网非显性广告识别方法，对既有的规则类广告识别方法做出补充。

2、将公开互联网渠道中的长短文本数据分开建模，使得最终的广告文本识别结果更加准确。

3、在识别非显性广告文本的基础上进一步识别广告的煽动性程度，可以更准确地分析企业宣传行为。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明所述互联网金融非显性广告识别方法的流程示意图；

图2为本发明所述互联网金融非显性广告识别装置的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得；在本发明的描述中，术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，本发明提供一种互联网金融非显性广告识别方法，包括：

S101、爬取互联网公开文本，过滤互联网公开文本中无意义信息；

这里爬取互联网公开文本是指从互联网上多渠道爬取公开的文本，包括从微博、微信公众号、第三方专业金融论坛、百度贴吧、知乎问答、金融产品官网、金融企业官网等渠道获取公开的文本；

由于来自社交媒体或企业官网等公开互联网渠道的文本中可能包含大量无意义信息，这些文本中的无意义信息可能会影响文本分类效果，因此需要过滤互联网公开文本中无意义信息，即指对所有文本进行简单的垃圾过滤，保留文本中有意义的部分，过滤目标可以分为以下几类：

(1)文本中除“。？！；”以外的中文、英文标点符号，保留用于分句的标点符号，其他特殊标点符号对于识别文本无意义，通过简单的文本匹配进行过滤。

(2)文本中以“http://”开头的url网址。常见于微博渠道的文本数据，通常是为某种活动而发布的，但也可能存在于非广告文本中，通过正则表达式在文本中定位并过滤url网址。

(3)文本中的转发标志，包括“转发微博”、“repost”、“@微博名//@微博名//……”等形式。常见于微博渠道文本，此类表达仅表示对其他用户所微博进行转发，不包含有意义的信息，通过文本匹配和正则表达式方法过滤。

(4)文本中的提醒好友标志“@微博名”(@符号+长度为4-30之间的字符串+空格)。常见于新浪微博、百度贴吧渠道文本，此类表达仅表示提醒其他社交媒体用户，用正则表达式进行过滤。

(5)文本中的表情符及特殊字符。社交媒体和产品文案中可能包含emoji表情符，爬取后可能显示为[微笑]、[鲜花]等文字形式，或无法正常显示的特殊字符形式，通过文本匹配和正则表达式进行过滤。

S102、对过滤后的互联网公开文本进行分词和统计词频，去掉分词结果中的停用词、低频词和高频词，这里低频词为出现频率不高于1次的词语，高频词为在各类文本中都多次出现的词汇，高频词阈值需由过滤后的互联网公开文本总体分词结果决定，一般取词频较高的前1％～5％的词作为高频词。

分词的目的是为了将互联网公开文本转化成一个个词语，进而形成文本的词特征向量，首先进行中文分词，然后对分词之后的结果进行词频筛选。首先利用jieba中文分词工具对文本进行分词，分词过程中加入自定义的用户词典，词典中包含涉金融业务实体名单(公司名称列表)、金融、经济、管理等专业分词词典等，将分词结果中的停用词去掉。词频筛选是指将分词结果中的低频词和高频词去掉。低频词很可能是只在少数文本中出现的，不具有代表性。高频词有两种可能：一种是大部分文本都出现的词语；另一类是错误分词以后产生的分词碎片。这些低频词和高频词对文本特征的提取参考意义较小，去掉之后可以提高本发明处理数据的效率。

S103、在过滤后的互联网公开文本中抽样，训练金融文本分类器，区分过滤后的互联网公开文本中的金融文本和非金融文本。

这里首先在过滤后的互联网公开文本中抽取第一样本，对第一样本进行人工标注附上金融类标签或非金融类标签，用标注后的第一样本训练第一线性支持向量机，在训练第一线性支持向量机时，采用步骤S102分词结果，计算第一样本的TF-IDF词向量(这里的TF-IDF词向量是由词频统计结果计算得到的，是常见的词特征计算方法，故不再赘述)，将该词向量作为特征向量构建输入特征矩阵，利用第一样本中附有金融类标签的文本和非金融类标签的文本的输入特征训练支持向量机文本分类模型，确定分类的最优超平面，进而得到金融文本分类器，再使用金融文本分类器对过滤后的互联网公开文本进行分类得到金融文本和非金融文本。

S104、将金融文本区分为长文本和短文本。

来自不同公开互联网渠道的文本长度不同，其中微博渠道以短文本为主，微信公众号、第三方专业金融论坛、百度贴吧等渠道以长文本为主，知乎问答和金融企业官网渠道既包含短文本也包含长文本。根据步骤S101过滤后的文本长度，把字符串长度不超过300的文本定义为短文本，字符串长度超过300的文本定义为长文本。

S105、在短文本中抽样，训练短文本广告分类器，区分短文本中的广告文本和非广告文本。

由于短文本包含的信息量少，所以特征容易识别。在短文本中抽取第二样本，对第二样本进行人工标注附上广告文本标签或非广告文本标签，用标注后的第二样本训练第二线性支持向量机，在训练第二线性支持向量机时，根据步骤S102分词结果，计算第二样本的TF-IDF词向量，将该词向量作为特征向量构建输入特征矩阵，利用第二样本中附有广告文本标签和非广告文本标签的文本的输入特征训练支持向量机文本分类模型，确定分类的最优超平面，进而得到短文本广告分类器，使用短文本广告分类器对短文本进行分类得到短文本中的广告文本和非广告文本。

S106、在长文本中抽样，训练长文本广告分类器，区分长文本中的广告文本和非广告文本。

由于长文本包含的信息量大，所以词特征丰富不易识别，故根据长文本中包含的广告句占比进行总体分类。在长文本中抽取第三样本，将第三样本按保留的标点符号分句，对第三样本中的每句话进行人工标注附上广告句标签或非广告句标签，用标注后的第三样本中的每句话和标注后的第二样本共同训练第三线性支持向量机，得到长文本广告分类器，这里长文本广告分类器的训练方法与短文本的类似，故这里不再重复论述。使用长文本广告分类器对长文本中的每句话进行分类得到广告句和非广告句，统计长文本中广告句的占比，广告句占比超过50％则将长文本分类为长文本中的广告文本，否则为长文本中的非广告文本。

S107、在长文本中的广告文本和短文本中的广告文本中抽样，训练广告文本煽动性分类器，区分长文本中的广告文本和短文本中的广告文本的煽动性程度。

在长文本中的广告文本和短文本中的广告文本中抽样，训练广告文本煽动性分类器，区分长文本中的广告文本和短文本中的广告文本的煽动性程度的过程包括：在长文本中的广告文本和短文本中的广告文本中抽取第四样本，对第四样本进行人工标注附上弱煽动性标签或强煽动性标签或极强煽动性标签，这里的广告煽动性特征包括以高收益或本息承诺等相关表述吸引用户，以及以夸张的语言风格和表达方式鼓动用户等两类煽动性语句。弱煽动性广告指一般的公司或产品介绍类文本，强煽动性广告指包含一定煽动性语言特征和内容特征的推荐广告，极强煽动性广告指煽动性语言特征和内容特征很强导致用户容易被鼓动的广告。一般第四样本采用多人同时标注，每个人按照自己的理解去标注，每个人标注完进行交叉核验，以尽量保持标注结果一致。用标注后的第四样本训练第四线性支持向量机得到广告文本煽动性分类器，使用广告文本煽动性分类器将长文本中的广告文本和短文本中的广告文本的煽动性程度进行分类，以识别出其中的弱煽动性广告文本、强煽动性广告文本、极强煽动性广告文本。

如图2所示，本发明还提供一种互联网金融非显性广告识别装置，包括：

爬取模块，其用于从互联网上爬取互联网公开文本；

这里爬取互联网公开文本是指从互联网上多渠道爬取公开的文本，包括从微博、微信公众号、第三方专业金融论坛、百度贴吧、知乎问答、金融产品官网、金融企业官网等渠道获取公开的文本。

这里首先在过滤后的互联网公开文本中抽取第一样本，对第一样本进行人工标注附上金融类标签或非金融类标签，用标注后的第一样本训练第一线性支持向量机，在训练第一线性支持向量机时，根据分词模块的分词结果计算第一样本的TF-IDF词向量，将该词向量作为特征向量构建输入特征矩阵，利用第一样本中附有金融类标签的文本和非金融类标签的文本的输入特征训练支持向量机文本分类模型，确定分类的最优超平面，进而得到金融文本分类器，再使用金融文本分类器对过滤后的互联网公开文本进行分类得到金融文本和非金融文本。

来自不同公开互联网渠道的文本长度不同，其中微博渠道以短文本为主，微信公众号、第三方专业金融论坛、百度贴吧等渠道以长文本为主，知乎问答和金融企业官网渠道既包含短文本也包含长文本。根据过滤后的文本长度，把字符串长度不超过300的文本定义为短文本，字符串长度超过300的文本定义为长文本。

由于短文本包含的信息量少，所以特征容易识别。在短文本中抽取第二样本，对第二样本进行人工标注附上广告文本标签或非广告文本标签，用标注后的第二样本训练第二线性支持向量机，在训练第二线性支持向量机时，根据分词模块的分词结果计算第二样本的TF-IDF词向量，将该词向量作为特征向量构建输入特征矩阵，利用第二样本中附有广告文本标签和非广告文本标签的文本的输入特征训练支持向量机文本分类模型，确定分类的最优超平面，进而得到短文本广告分类器，使用短文本广告分类器对短文本进行分类得到短文本中的广告文本和非广告文本。

由于长文本包含的信息量大，所以词特征丰富不易识别，故根据长文本中包含的广告句占比进行总体分类。在长文本中抽取第三样本，将第三样本按保留的标点符号分句，对第三样本中的每句话进行人工标注附上广告句标签或非广告句标签，用标注后的第三样本中的每句话和标注后的第二样本共同训练第三线性支持向量机，得到长文本广告分类器，使用长文本广告分类器对长文本中的每句话进行分类得到广告句和非广告句，统计长文本中广告句的占比，广告句占比超过50％则将长文本分类为长文本中的广告文本，否则为长文本中的非广告文本。

广告煽动性程度识别模块，在长文本中的广告文本和短文本中的广告文本中抽样，训练广告文本煽动性分类器，区分长文本中的广告文本和短文本中的广告文本的煽动性程度；

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.互联网金融非显性广告识别方法，其特征在于，包括：

爬取互联网公开文本，过滤互联网公开文本中无意义信息；

将金融文本区分为长文本和短文本；

2.如权利要求1所述的互联网金融非显性广告识别方法，其特征在于，过滤互联网公开文本中无意义信息后还包括：对过滤后的互联网公开文本进行分词和统计词频，去掉分词结果中的停用词、低频词和高频词。

3.如权利要求2所述的互联网金融非显性广告识别方法，其特征在于，对过滤后的互联网公开文本分词过程中加入自定义的用户词典，用户词典中包含涉金融业务实体名录、金融领域专业词汇。

4.如权利要求2所述的互联网金融非显性广告识别方法，其特征在于，通过文本匹配和/或正则表达式方法过滤互联网公开文本中无意义信息，其中，互联网公开文本中无意义信息包括：除句号、问号、感叹号和分号以外的其他中文和英文标点符号；url网址；转发标志；提醒好友标志；表情符及表情符的文字形式。

5.如权利要求2所述的互联网金融非显性广告识别方法，其特征在于，在过滤后的互联网公开文本中抽样，训练金融文本分类器，区分过滤后的互联网公开文本中的金融文本和非金融文本的过程包括：在过滤后的互联网公开文本中抽取第一样本，对第一样本进行人工标注附上金融类标签或非金融类标签，用标注后的第一样本训练第一线性支持向量机，得到金融文本分类器，使用金融文本分类器对过滤后的互联网公开文本进行分类得到金融文本和非金融文本。

6.如权利要求2所述的互联网金融非显性广告识别方法，其特征在于，将金融文本区分为长文本和短文本的过程包括：将金融文本中包含字符串长度超过300的文本定义为长文本，将金融文本中包含字符串长度不超过300的文本定义为短文本。

7.如权利要求4所述的互联网金融非显性广告识别方法，其特征在于，在短文本中抽样，训练短文本广告分类器，区分短文本中的广告文本和非广告文本的过程包括：在短文本中抽取第二样本，对第二样本进行人工标注附上广告文本标签或非广告文本标签，用标注后的第二样本训练第二线性支持向量机，得到短文本广告分类器，使用短文本广告分类器对短文本进行分类得到短文本中的广告文本和非广告文本。

8.如权利要求7所述的互联网金融非显性广告识别方法，其特征在于，在长文本中抽样，训练长文本广告分类器，区分长文本中的广告文本和非广告文本的过程包括：在长文本中抽取第三样本，将第三样本按保留的标点符号分句，对第三样本中的每句话进行人工标注附上广告句标签或非广告句标签，用标注后的第三样本中的每句话和标注后的第二样本共同训练第三线性支持向量机，得到长文本广告分类器，使用长文本广告分类器对长文本中的每句话进行分类得到广告句和非广告句，统计长文本中广告句的占比，广告句占比超过50％则将长文本分类为长文本中的广告文本，否则为长文本中的非广告文本。

9.如权利要求8所述的互联网金融非显性广告识别方法，其特征在于，在长文本中的广告文本和短文本中的广告文本中抽样，训练广告文本煽动性分类器，区分长文本中的广告文本和短文本中的广告文本的煽动性程度的过程包括：在长文本中的广告文本和短文本中的广告文本中抽取第四样本，对第四样本进行人工标注附上弱煽动性标签或强煽动性标签或极强煽动性标签，用标注后的第四样本训练第四线性支持向量机得到广告文本煽动性分类器，使用广告文本煽动性分类器将长文本中的广告文本和短文本中的广告文本的煽动性程度进行分类。

10.互联网金融非显性广告识别装置，其特征在于，包括：

爬取模块，其用于从互联网上爬取互联网公开文本；