CN112818112A

CN112818112A - 一种基于文本分类的广告推送方法、装置和系统

Info

Publication number: CN112818112A
Application number: CN202110216168.6A
Authority: CN
Inventors: 周玄郎; 邱卫根; 叶典; 陈玉冰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-05-18

Abstract

本申请公开了一种基于文本分类的广告推送方法、装置和系统，获取目标文本，通过目标文本构建一个大型的异构图，并通过词共现和逐点互信息表示节点之间的权值，再通过一个两层文本图卷积神经网络进行特征提取，提取高效的特征表达，再将提取的特征传入到之后的特征Stacking集成学习部件中进行集成学习，以大大提高对应文本的分类准确率。通过构建的装置，对输入的文本进行判别，判断对应文本所属广告信息的类别，以对广告信息进行相应的处理，可以以高准确率识别广告信息所属的类别，对广告进行准确高效的推送，增强用户体验。

Description

一种基于文本分类的广告推送方法、装置和系统

技术领域

本申请涉及计算机网络技术领域，尤其涉及一种基于文本分类的广告推送方法、装置和系统。

背景技术

在现有的广告推送技术中，经常会出现推送的广告不是用户感兴趣的内容，导致用户体验性差的问题，其根源在于对基于文本分类的广告推送处理的准确率不高，导致广告推送内容出现偏差。在现有的基于文本分类的广告推送处理方式是预先对文本进行预处理，如枚举关键词的词语，然后对文本中的语句进行匹配，如果匹配到所枚举的关键词，便将含有关键词的文本语句标记为指定类别，然后进行推送处理，或者通过对文本进行特征提取，已进行相应的匹配，找到用户感兴趣的广告类别进行推送。然而，在现有技术中，很多广告的关键词都比较隐蔽，导致这些广告类别无法准确的被识别出来，进而导致推送用户不感兴趣的广告，无法达到高效推送的效果。

发明内容

本申请提供了一种基于文本分类的广告推送方法、装置和系统，用于解决现有的基于文本分类的广告推送方法分类识别准确率低，无法达到高效推送广告内容的技术问题。

有鉴于此，本申请第一方面提供了一种基于文本分类的广告推送方法，包括：

获取目标文本，所述目标文本为本地文本数据和/或网络文本数据；

基于词共现和逐点互信息对所述目标文本进行处理，得到异构图的边权值，建立文本异构图；

将所述文本异构图输入文本图卷积特征提取模型中进行特征提取，得到具有高表达能力的特征向量；

将所述特征向量输入stacking集成学习模块中学习，得到所述目标文本的分类结果；

根据所述分类结果向用户推送感兴趣的广告文本。

可选地，所述基于词共现和逐点互信息对所述目标文本进行处理，得到异构图的边权值，建立文本异构图，包括：

基于词共现和逐点互信息建立所述目标文本的边权值计算模型；

根据所述计算模型计算所述目标文本的异构图的边权值，得到所述目标文本的异构图；

所述计算模型为：

其中，

N为文本卷积所用到的滑动窗口总数，N(i,j)为同时包含节点i，j的滑动窗口，N(i)为包含节点i的滑动窗口数，A_i,j为节点i，j对应的异构图的边权值。

可选地，所述stacking集成学习模块包括两层结构，第一层为基分类器层，包含有多个基分类器，第二层为融合层，包含单个用于将所述基分类器层的基分类器融合的融合分类器。

可选地，所述融合分类器为投票器，采用少数服从多数原则确定分类结果。

可选地，将所述文本异构图输入文本图卷积特征提取模型中进行特征提取时，所述文本图卷积特征提取模型通过分层传播方式进行传播，传播规则为：

其中，

A为异构图的n邻接矩阵，n为异构图上的顶点个数，I_N为n阶单位矩阵，

为

矩阵对应的度矩阵，

W^(l)为l层的权重矩阵，σ为激活函数，H^(l)为文本图卷积网络的第l层的输出。

本申请第二方面提供了一种基于文本分类的广告推送装置，包括：

获取模块，用于获取目标文本，所述目标文本为本地文本数据和/或网络文本数据；

异构图模块，用于基于词共现和逐点互信息对所述目标文本进行处理，得到异构图的边权值，建立文本异构图；

特征提取模块，用于将所述文本异构图输入文本图卷积特征提取模型中进行特征提取，得到具有高表达能力的特征向量；

分类学习模块，用于将所述特征向量输入stacking集成学习模块中学习，得到所述目标文本的分类结果；

推送模块，用于根据所述分类结果向用户推送感兴趣的广告文本。

可选地，所述异构图模块具体用于：

所述计算模型为：

其中，

本申请第三方面提供了一种基于文本分类的广告推送系统，包括I/O设备、接口层、模型层、硬件平台和推送模块；

所述接口层为tensorflow或者pytorch接口，所述模型层为文本分类处理器，所述硬件平台为GPU/CPU；

所述文本分类处理器包括文本数据加载元件、文本卷积处理器、stacking集成学习处理器和结果输出元件；

所述文本数据加载元件用于加载所述I/O设备读取的目标文本，所述目标文本为本地文本数据和/或网络文本数据；

所述文本卷积处理器用于基于词共现和逐点互信息对所述目标文本进行处理，得到异构图的边权值，建立文本异构图，将所述文本异构图输入文本图卷积特征提取模型中进行特征提取，得到具有高表达能力的特征向量；

所述stacking集成学习处理器用于接收所述文本卷积处理器的特征向量，利用stacking集成学习对所述特征向量进行预测，得到所述目标文本的分类标签标号；

所述结果输出元件用于将所述目标文本的对应的分类标签标号进行映射，得到分类结果；

所述GPU/CPU用于驱动所述文本分类处理器进行工作；

所述推送模块用于根据所述分类结果向用户推送感兴趣的广告文本。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中提供了一种基于文本分类的广告推送方法，包括：获取目标文本，目标文本为本地文本数据和/或网络文本数据；基于词共现和逐点互信息对目标文本进行处理，得到异构图的边权值，建立文本异构图；将文本异构图输入文本图卷积特征提取模型中进行特征提取，得到具有高表达能力的特征向量；将特征向量输入stacking集成学习模块中学习，得到目标文本的分类结果；根据分类结果向用户推送感兴趣的广告文本。

本申请提供的基于文本分类的广告推送方法，获取目标文本，通过目标文本构建一个大型的异构图，并通过词共现和逐点互信息表示节点之间的权值，再通过一个两层文本图卷积神经网络进行特征提取，提取高效的特征表达，再将提取的特征传入到之后的特征Stacking集成学习部件中进行集成学习，以大大提高对应文本的分类准确率。通过构建的装置，对输入的文本进行判别，判断对应文本所属广告信息的类别，以对广告信息进行相应的处理，可以以高准确率识别广告信息所属的类别，对广告进行准确高效的推送，增强用户体验。

附图说明

为了更清楚的说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例中提供的一种基于文本分类的广告推送方法的流程示意图；

图2为本申请实施例中提供的stacking集成学习的框架图；

图3为本申请实施例中提供的一种基于文本分类的广告推送系统的结构示意图；

图4为本申请实施例中提供的文本分类处理器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1

为了便于理解，请参阅图1，本申请提供的一种基于文本分类的广告推送方法的一个实施例，包括：

步骤101、获取目标文本，目标文本为本地文本数据和/或网络文本数据。

目标文本可以是用户在电子设备中输入的文本和网络上的网络文本数据集合，例如广告文件或新闻文件等。

步骤102、基于词共现和逐点互信息对目标文本进行处理，得到异构图的边权值，建立文本异构图。

将目标文本利用词共现和逐点互信息技术进行处理，构建响应的文本异构图，其中，异构图的节点为目标文本和各个词语或单词，从而得到相应的邻接矩阵。

异构图的边权值词共现和逐点互信息进行构建，构建公式为：

其中，N为文本卷积所用到的滑动窗口总数，N(i,j)为同时包含节点i，j的滑动窗口，N(i)为包含节点i的滑动窗口数，A_i,j为节点i，j对应的异构图的边权值。

步骤103、将文本异构图输入文本图卷积特征提取模型中进行特征提取，得到具有高表达能力的特征向量。

使用带有两层结构的文本图卷积神经网络模型对异构图进行特征提取，对异构图进行特征提取时，通过分层传播方式进行传播，传播规则为：

其中，

为

矩阵对应的度矩阵，

W^(l)为l层的权重矩阵，σ为激活函数，H^(l)为文本图卷积网络的第l层的输出，常用的激活函数如ReLU，sigmoid，tanh等非线性激活函数，H^(l)为文本图卷积网络的第l层激活的n×d的矩阵，即l的输出。

通过文本图卷积神经网络模型对异构图对应的邻接矩阵进行特征提取，得到对应于目标文本的特征向量，该特征向量具有高表达性，能够很好的对目标文本进行表示。

步骤104、将特征向量输入stacking集成学习模块中学习，得到目标文本的分类结果。

如图2所示，stacking集成学习模块包含两层结构，第一层有多个基分类器，使用多个基分类器对步骤103中得到的特征向量进行预测分类，如基分类器C1，C2,…,Cm，其中，m为stacking集成学习模块中基分类器的个数。

使用基分类器C1，C2,…,Cm对特征向量进行预测，得到对应的预测类别P1,P2,…,Pm。对P1,P2,…,Pm进行组合构建新的特征(P1,P2,…,Pm)，以用于对目标文本进行全新的表达，以及作为stacking集成学习模块第二层的输入，第二层为融合层，融合层包含单个分类器用作第一层得到的新的特征进行融合，融合层采用投票器。由于目标文本新的特征属于对文本图卷积所提取的高表达特征的预测，即临时预测高表达特征的类别，业绩目标文本的临时分类效果。通过融合层的投票器对第一层得到的新的特征表达(P1,P2,…,Pm)进行统计，确定新的特征(P1,P2,…,Pm)中各个预测类别的数量，最后提取预测类别数量最多的类别作为目标文本的最终类别编号。将最终类别编号进行映射，得到最后的分类标签，以作为目标文本的分类标签。

步骤105、根据分类结果向用户推送感兴趣的广告文本。

通过判断文本的类别标签，确定文本所属的广告类型，判断是否属于用户感兴趣的内容，再确定是否推送给客户。由于是通过文本图卷积进行特征提取，可以的到高效的文本表达的特征向量，而且对应的stacking集成学习，是一种组合学习方式，可以大大提高模型的精度和泛化能力，因此理论上可以使得文本分类的准确率达到很高的水准，通过高准确率的文本分类模型可以大大提高推送的效果。

本申请实施例提供的基于文本分类的广告推送方法，获取目标文本，通过目标文本构建一个大型的异构图，并通过词共现和逐点互信息表示节点之间的权值，再通过一个两层文本图卷积神经网络进行特征提取，提取高效的特征表达，再将提取的特征传入到之后的特征Stacking集成学习部件中进行集成学习，以大大提高对应文本的分类准确率。通过构建的装置，对输入的文本进行判别，判断对应文本所属广告信息的类别，以对广告信息进行相应的处理，可以以高准确率识别广告信息所属的类别，对广告进行准确高效的推送，增强用户体验。

实施例2

本申请中提供了一种基于文本分类的广告推送装置的实施例，包括：

获取模块，用于获取目标文本，目标文本为本地文本数据和/或网络文本数据；

异构图模块，用于基于词共现和逐点互信息对目标文本进行处理，得到异构图的边权值，建立文本异构图；

特征提取模块，用于将文本异构图输入文本图卷积特征提取模型中进行特征提取，得到具有高表达能力的特征向量；

分类学习模块，用于将特征向量输入stacking集成学习模块中学习，得到目标文本的分类结果；

推送模块，用于根据分类结果向用户推送感兴趣的广告文本。

异构图模块具体用于：

所述计算模型为：

其中，

stacking集成学习模块包括两层结构，第一层为基分类器层，包含有多个基分类器，第二层为融合层，包含单个用于将所述基分类器层的基分类器融合的融合分类器。

融合分类器为投票器，采用少数服从多数原则确定分类结果。

本申请实施例提供的基于文本分类的广告推送装置，获取目标文本，通过目标文本构建一个大型的异构图，并通过词共现和逐点互信息表示节点之间的权值，再通过一个两层文本图卷积神经网络进行特征提取，提取高效的特征表达，再将提取的特征传入到之后的特征Stacking集成学习部件中进行集成学习，以大大提高对应文本的分类准确率。通过构建的装置，对输入的文本进行判别，判断对应文本所属广告信息的类别，以对广告信息进行相应的处理，可以以高准确率识别广告信息所属的类别，对广告进行准确高效的推送，增强用户体验。

实施例3

为了便于理解，请参阅图3和图4，本申请中提供了一种基于文本分类的广告推送系统的实施例，包括I/O设备、接口层、模型层、硬件平台和推送模块；

接口层为tensorflow或者pytorch接口，模型层为文本分类处理器，硬件平台为GPU/CPU；

文本分类处理器包括文本数据加载元件、文本卷积处理器、stacking集成学习处理器和结果输出元件；

文本数据加载元件用于加载所述I/O设备读取的目标文本，目标文本为本地文本数据和/或网络文本数据；

文本卷积处理器用于基于词共现和逐点互信息对目标文本进行处理，得到异构图的边权值，建立文本异构图，将文本异构图输入文本图卷积特征提取模型中进行特征提取，得到具有高表达能力的特征向量；

stacking集成学习处理器用于接收文本卷积处理器的特征向量，利用stacking集成学习对特征向量进行预测，得到目标文本的分类标签标号；

结果输出元件用于将目标文本的对应的分类标签标号进行映射，得到分类结果；

GPU/CPU用于驱动文本分类处理器进行工作；

推送模块用于根据分类结果向用户推送感兴趣的广告文本。

I/O设备，所述I/O设备用以读取电子设备中的数据，即文本数据。

I/O设备通过所读取的文本数据传输到文本分类处理器中。

文本分类处理器由tensorflow或者pytorch实现，通过tensorflow或者pytorch接口，对数据进行处理，包括特征提取以及分类集成学习。

GPU/CPU部件，属于硬件平台，作为文本分类处理器以及tensorflow或者pytorch等接口层运行的基本条件。保障文本分类装置基本运行环境。

文本分类处理器，在GPU/CPU以接口层的驱动下对文本数据进行处理。

文本数据加载元件，用以加载I/O读取的文本数据。

文本图卷积处理器，用以对文本数据加载元件加载的文本数据进行处理，其中包括：

文本数据异构图的构建，通过确定对应于文本数据的邻接矩阵，并通过词共现和互信息PMI进行邻接点之间的权重。

对文本数据构建的邻接矩阵(异构图)进行分层传播，最终提取文本的高表达特征，表现为向量形式。以对文本数据进行特征表示。

Stacking集成学习处理器单元，接受来自文本图卷积处理器的高表达特征，然后通过所述集成学习处理器的多个基分类器C1,C2,…,Cm对输入的特征进行标签预测，得到文本对应的临时类别标签P1,P2,…,Pm。

得到的临时类别P1,P2,…,Pm组合成向量形式(P1,P2,…,Pm)，称为新特征。

将新特征通过所述集成学习处理器的融合单元进行处理，融合单元实质是个投票分类器。新特征经过所述投票分类器进行投票分类，将文本对应的文本临时标签进行计数。对应分类含有所述临时分类标签数最多的则设置为所述文本的分类标签标号，即少数服从多数原则。

经过所述集成学习处理器处理后的分类标号，传入到结果输出元件中。

结果输出元件通文本对应的分类标号进行映射，得到文本的最终分类结果。即广告类型。

通过文分类处理器得到的结果，再输出到I/O设备中，如果输出的结果是广告的类型，再对文本进行过滤处理。

本申请实施例提供的基于文本分类的广告推送系统，获取目标文本，通过目标文本构建一个大型的异构图，并通过词共现和逐点互信息表示节点之间的权值，再通过一个两层文本图卷积神经网络进行特征提取，提取高效的特征表达，再将提取的特征传入到之后的特征Stacking集成学习部件中进行集成学习，以大大提高对应文本的分类准确率。通过构建的装置，对输入的文本进行判别，判断对应文本所属广告信息的类别，以对广告信息进行相应的处理，可以以高准确率识别广告信息所属的类别，对广告进行准确高效的推送，增强用户体验。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。