CN112818112A - 一种基于文本分类的广告推送方法、装置和系统 - Google Patents

一种基于文本分类的广告推送方法、装置和系统 Download PDF

Info

Publication number
CN112818112A
CN112818112A CN202110216168.6A CN202110216168A CN112818112A CN 112818112 A CN112818112 A CN 112818112A CN 202110216168 A CN202110216168 A CN 202110216168A CN 112818112 A CN112818112 A CN 112818112A
Authority
CN
China
Prior art keywords
text
classification
graph
layer
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110216168.6A
Other languages
English (en)
Inventor
周玄郎
邱卫根
叶典
陈玉冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110216168.6A priority Critical patent/CN112818112A/zh
Publication of CN112818112A publication Critical patent/CN112818112A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0254Targeted advertisements based on statistics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Development Economics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Biophysics (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于文本分类的广告推送方法、装置和系统,获取目标文本,通过目标文本构建一个大型的异构图,并通过词共现和逐点互信息表示节点之间的权值,再通过一个两层文本图卷积神经网络进行特征提取,提取高效的特征表达,再将提取的特征传入到之后的特征Stacking集成学习部件中进行集成学习,以大大提高对应文本的分类准确率。通过构建的装置,对输入的文本进行判别,判断对应文本所属广告信息的类别,以对广告信息进行相应的处理,可以以高准确率识别广告信息所属的类别,对广告进行准确高效的推送,增强用户体验。

Description

一种基于文本分类的广告推送方法、装置和系统
技术领域
本申请涉及计算机网络技术领域,尤其涉及一种基于文本分类的广告推送方法、装置和系统。
背景技术
在现有的广告推送技术中,经常会出现推送的广告不是用户感兴趣的内容,导致用户体验性差的问题,其根源在于对基于文本分类的广告推送处理的准确率不高,导致广告推送内容出现偏差。在现有的基于文本分类的广告推送处理方式是预先对文本进行预处理,如枚举关键词的词语,然后对文本中的语句进行匹配,如果匹配到所枚举的关键词,便将含有关键词的文本语句标记为指定类别,然后进行推送处理,或者通过对文本进行特征提取,已进行相应的匹配,找到用户感兴趣的广告类别进行推送。然而,在现有技术中,很多广告的关键词都比较隐蔽,导致这些广告类别无法准确的被识别出来,进而导致推送用户不感兴趣的广告,无法达到高效推送的效果。
发明内容
本申请提供了一种基于文本分类的广告推送方法、装置和系统,用于解决现有的基于文本分类的广告推送方法分类识别准确率低,无法达到高效推送广告内容的技术问题。
有鉴于此,本申请第一方面提供了一种基于文本分类的广告推送方法,包括:
获取目标文本,所述目标文本为本地文本数据和/或网络文本数据;
基于词共现和逐点互信息对所述目标文本进行处理,得到异构图的边权值,建立文本异构图;
将所述文本异构图输入文本图卷积特征提取模型中进行特征提取,得到具有高表达能力的特征向量;
将所述特征向量输入stacking集成学习模块中学习,得到所述目标文本的分类结果;
根据所述分类结果向用户推送感兴趣的广告文本。
可选地,所述基于词共现和逐点互信息对所述目标文本进行处理,得到异构图的边权值,建立文本异构图,包括:
基于词共现和逐点互信息建立所述目标文本的边权值计算模型;
根据所述计算模型计算所述目标文本的异构图的边权值,得到所述目标文本的异构图;
所述计算模型为:
Figure BDA0002953868800000021
其中,
Figure BDA0002953868800000022
N为文本卷积所用到的滑动窗口总数,N(i,j)为同时包含节点i,j的滑动窗口,N(i)为包含节点i的滑动窗口数,Ai,j为节点i,j对应的异构图的边权值。
可选地,所述stacking集成学习模块包括两层结构,第一层为基分类器层,包含有多个基分类器,第二层为融合层,包含单个用于将所述基分类器层的基分类器融合的融合分类器。
可选地,所述融合分类器为投票器,采用少数服从多数原则确定分类结果。
可选地,将所述文本异构图输入文本图卷积特征提取模型中进行特征提取时,所述文本图卷积特征提取模型通过分层传播方式进行传播,传播规则为:
Figure BDA0002953868800000023
其中,
Figure BDA0002953868800000024
A为异构图的n邻接矩阵,n为异构图上的顶点个数,IN为n阶单位矩阵,
Figure BDA0002953868800000025
Figure BDA0002953868800000026
矩阵对应的度矩阵,
Figure BDA0002953868800000027
W(l)为l层的权重矩阵,σ为激活函数,H(l)为文本图卷积网络的第l层的输出。
本申请第二方面提供了一种基于文本分类的广告推送装置,包括:
获取模块,用于获取目标文本,所述目标文本为本地文本数据和/或网络文本数据;
异构图模块,用于基于词共现和逐点互信息对所述目标文本进行处理,得到异构图的边权值,建立文本异构图;
特征提取模块,用于将所述文本异构图输入文本图卷积特征提取模型中进行特征提取,得到具有高表达能力的特征向量;
分类学习模块,用于将所述特征向量输入stacking集成学习模块中学习,得到所述目标文本的分类结果;
推送模块,用于根据所述分类结果向用户推送感兴趣的广告文本。
可选地,所述异构图模块具体用于:
基于词共现和逐点互信息建立所述目标文本的边权值计算模型;
根据所述计算模型计算所述目标文本的异构图的边权值,得到所述目标文本的异构图;
所述计算模型为:
Figure BDA0002953868800000031
其中,
Figure BDA0002953868800000032
N为文本卷积所用到的滑动窗口总数,N(i,j)为同时包含节点i,j的滑动窗口,N(i)为包含节点i的滑动窗口数,Ai,j为节点i,j对应的异构图的边权值。
可选地,所述stacking集成学习模块包括两层结构,第一层为基分类器层,包含有多个基分类器,第二层为融合层,包含单个用于将所述基分类器层的基分类器融合的融合分类器。
可选地,所述融合分类器为投票器,采用少数服从多数原则确定分类结果。
本申请第三方面提供了一种基于文本分类的广告推送系统,包括I/O设备、接口层、模型层、硬件平台和推送模块;
所述接口层为tensorflow或者pytorch接口,所述模型层为文本分类处理器,所述硬件平台为GPU/CPU;
所述文本分类处理器包括文本数据加载元件、文本卷积处理器、stacking集成学习处理器和结果输出元件;
所述文本数据加载元件用于加载所述I/O设备读取的目标文本,所述目标文本为本地文本数据和/或网络文本数据;
所述文本卷积处理器用于基于词共现和逐点互信息对所述目标文本进行处理,得到异构图的边权值,建立文本异构图,将所述文本异构图输入文本图卷积特征提取模型中进行特征提取,得到具有高表达能力的特征向量;
所述stacking集成学习处理器用于接收所述文本卷积处理器的特征向量,利用stacking集成学习对所述特征向量进行预测,得到所述目标文本的分类标签标号;
所述结果输出元件用于将所述目标文本的对应的分类标签标号进行映射,得到分类结果;
所述GPU/CPU用于驱动所述文本分类处理器进行工作;
所述推送模块用于根据所述分类结果向用户推送感兴趣的广告文本。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中提供了一种基于文本分类的广告推送方法,包括:获取目标文本,目标文本为本地文本数据和/或网络文本数据;基于词共现和逐点互信息对目标文本进行处理,得到异构图的边权值,建立文本异构图;将文本异构图输入文本图卷积特征提取模型中进行特征提取,得到具有高表达能力的特征向量;将特征向量输入stacking集成学习模块中学习,得到目标文本的分类结果;根据分类结果向用户推送感兴趣的广告文本。
本申请提供的基于文本分类的广告推送方法,获取目标文本,通过目标文本构建一个大型的异构图,并通过词共现和逐点互信息表示节点之间的权值,再通过一个两层文本图卷积神经网络进行特征提取,提取高效的特征表达,再将提取的特征传入到之后的特征Stacking集成学习部件中进行集成学习,以大大提高对应文本的分类准确率。通过构建的装置,对输入的文本进行判别,判断对应文本所属广告信息的类别,以对广告信息进行相应的处理,可以以高准确率识别广告信息所属的类别,对广告进行准确高效的推送,增强用户体验。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例中提供的一种基于文本分类的广告推送方法的流程示意图;
图2为本申请实施例中提供的stacking集成学习的框架图;
图3为本申请实施例中提供的一种基于文本分类的广告推送系统的结构示意图;
图4为本申请实施例中提供的文本分类处理器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1
为了便于理解,请参阅图1,本申请提供的一种基于文本分类的广告推送方法的一个实施例,包括:
步骤101、获取目标文本,目标文本为本地文本数据和/或网络文本数据。
目标文本可以是用户在电子设备中输入的文本和网络上的网络文本数据集合,例如广告文件或新闻文件等。
步骤102、基于词共现和逐点互信息对目标文本进行处理,得到异构图的边权值,建立文本异构图。
将目标文本利用词共现和逐点互信息技术进行处理,构建响应的文本异构图,其中,异构图的节点为目标文本和各个词语或单词,从而得到相应的邻接矩阵。
异构图的边权值词共现和逐点互信息进行构建,构建公式为:
Figure BDA0002953868800000051
Figure BDA0002953868800000061
Figure BDA0002953868800000062
Figure BDA0002953868800000063
其中,N为文本卷积所用到的滑动窗口总数,N(i,j)为同时包含节点i,j的滑动窗口,N(i)为包含节点i的滑动窗口数,Ai,j为节点i,j对应的异构图的边权值。
步骤103、将文本异构图输入文本图卷积特征提取模型中进行特征提取,得到具有高表达能力的特征向量。
使用带有两层结构的文本图卷积神经网络模型对异构图进行特征提取,对异构图进行特征提取时,通过分层传播方式进行传播,传播规则为:
Figure BDA0002953868800000064
其中,
Figure BDA0002953868800000065
A为异构图的n邻接矩阵,n为异构图上的顶点个数,IN为n阶单位矩阵,
Figure BDA0002953868800000066
Figure BDA0002953868800000067
矩阵对应的度矩阵,
Figure BDA0002953868800000068
W(l)为l层的权重矩阵,σ为激活函数,H(l)为文本图卷积网络的第l层的输出,常用的激活函数如ReLU,sigmoid,tanh等非线性激活函数,H(l)为文本图卷积网络的第l层激活的n×d的矩阵,即l的输出。
通过文本图卷积神经网络模型对异构图对应的邻接矩阵进行特征提取,得到对应于目标文本的特征向量,该特征向量具有高表达性,能够很好的对目标文本进行表示。
步骤104、将特征向量输入stacking集成学习模块中学习,得到目标文本的分类结果。
如图2所示,stacking集成学习模块包含两层结构,第一层有多个基分类器,使用多个基分类器对步骤103中得到的特征向量进行预测分类,如基分类器C1,C2,…,Cm,其中,m为stacking集成学习模块中基分类器的个数。
使用基分类器C1,C2,…,Cm对特征向量进行预测,得到对应的预测类别P1,P2,…,Pm。对P1,P2,…,Pm进行组合构建新的特征(P1,P2,…,Pm),以用于对目标文本进行全新的表达,以及作为stacking集成学习模块第二层的输入,第二层为融合层,融合层包含单个分类器用作第一层得到的新的特征进行融合,融合层采用投票器。由于目标文本新的特征属于对文本图卷积所提取的高表达特征的预测,即临时预测高表达特征的类别,业绩目标文本的临时分类效果。通过融合层的投票器对第一层得到的新的特征表达(P1,P2,…,Pm)进行统计,确定新的特征(P1,P2,…,Pm)中各个预测类别的数量,最后提取预测类别数量最多的类别作为目标文本的最终类别编号。将最终类别编号进行映射,得到最后的分类标签,以作为目标文本的分类标签。
步骤105、根据分类结果向用户推送感兴趣的广告文本。
通过判断文本的类别标签,确定文本所属的广告类型,判断是否属于用户感兴趣的内容,再确定是否推送给客户。由于是通过文本图卷积进行特征提取,可以的到高效的文本表达的特征向量,而且对应的stacking集成学习,是一种组合学习方式,可以大大提高模型的精度和泛化能力,因此理论上可以使得文本分类的准确率达到很高的水准,通过高准确率的文本分类模型可以大大提高推送的效果。
本申请实施例提供的基于文本分类的广告推送方法,获取目标文本,通过目标文本构建一个大型的异构图,并通过词共现和逐点互信息表示节点之间的权值,再通过一个两层文本图卷积神经网络进行特征提取,提取高效的特征表达,再将提取的特征传入到之后的特征Stacking集成学习部件中进行集成学习,以大大提高对应文本的分类准确率。通过构建的装置,对输入的文本进行判别,判断对应文本所属广告信息的类别,以对广告信息进行相应的处理,可以以高准确率识别广告信息所属的类别,对广告进行准确高效的推送,增强用户体验。
实施例2
本申请中提供了一种基于文本分类的广告推送装置的实施例,包括:
获取模块,用于获取目标文本,目标文本为本地文本数据和/或网络文本数据;
异构图模块,用于基于词共现和逐点互信息对目标文本进行处理,得到异构图的边权值,建立文本异构图;
特征提取模块,用于将文本异构图输入文本图卷积特征提取模型中进行特征提取,得到具有高表达能力的特征向量;
分类学习模块,用于将特征向量输入stacking集成学习模块中学习,得到目标文本的分类结果;
推送模块,用于根据分类结果向用户推送感兴趣的广告文本。
异构图模块具体用于:
基于词共现和逐点互信息建立所述目标文本的边权值计算模型;
根据所述计算模型计算所述目标文本的异构图的边权值,得到所述目标文本的异构图;
所述计算模型为:
Figure BDA0002953868800000081
其中,
Figure BDA0002953868800000082
N为文本卷积所用到的滑动窗口总数,N(i,j)为同时包含节点i,j的滑动窗口,N(i)为包含节点i的滑动窗口数,Ai,j为节点i,j对应的异构图的边权值。
stacking集成学习模块包括两层结构,第一层为基分类器层,包含有多个基分类器,第二层为融合层,包含单个用于将所述基分类器层的基分类器融合的融合分类器。
融合分类器为投票器,采用少数服从多数原则确定分类结果。
本申请实施例提供的基于文本分类的广告推送装置,获取目标文本,通过目标文本构建一个大型的异构图,并通过词共现和逐点互信息表示节点之间的权值,再通过一个两层文本图卷积神经网络进行特征提取,提取高效的特征表达,再将提取的特征传入到之后的特征Stacking集成学习部件中进行集成学习,以大大提高对应文本的分类准确率。通过构建的装置,对输入的文本进行判别,判断对应文本所属广告信息的类别,以对广告信息进行相应的处理,可以以高准确率识别广告信息所属的类别,对广告进行准确高效的推送,增强用户体验。
实施例3
为了便于理解,请参阅图3和图4,本申请中提供了一种基于文本分类的广告推送系统的实施例,包括I/O设备、接口层、模型层、硬件平台和推送模块;
接口层为tensorflow或者pytorch接口,模型层为文本分类处理器,硬件平台为GPU/CPU;
文本分类处理器包括文本数据加载元件、文本卷积处理器、stacking集成学习处理器和结果输出元件;
文本数据加载元件用于加载所述I/O设备读取的目标文本,目标文本为本地文本数据和/或网络文本数据;
文本卷积处理器用于基于词共现和逐点互信息对目标文本进行处理,得到异构图的边权值,建立文本异构图,将文本异构图输入文本图卷积特征提取模型中进行特征提取,得到具有高表达能力的特征向量;
stacking集成学习处理器用于接收文本卷积处理器的特征向量,利用stacking集成学习对特征向量进行预测,得到目标文本的分类标签标号;
结果输出元件用于将目标文本的对应的分类标签标号进行映射,得到分类结果;
GPU/CPU用于驱动文本分类处理器进行工作;
推送模块用于根据分类结果向用户推送感兴趣的广告文本。
I/O设备,所述I/O设备用以读取电子设备中的数据,即文本数据。
I/O设备通过所读取的文本数据传输到文本分类处理器中。
文本分类处理器由tensorflow或者pytorch实现,通过tensorflow或者pytorch接口,对数据进行处理,包括特征提取以及分类集成学习。
GPU/CPU部件,属于硬件平台,作为文本分类处理器以及tensorflow或者pytorch等接口层运行的基本条件。保障文本分类装置基本运行环境。
文本分类处理器,在GPU/CPU以接口层的驱动下对文本数据进行处理。
文本数据加载元件,用以加载I/O读取的文本数据。
文本图卷积处理器,用以对文本数据加载元件加载的文本数据进行处理,其中包括:
文本数据异构图的构建,通过确定对应于文本数据的邻接矩阵,并通过词共现和互信息PMI进行邻接点之间的权重。
对文本数据构建的邻接矩阵(异构图)进行分层传播,最终提取文本的高表达特征,表现为向量形式。以对文本数据进行特征表示。
Stacking集成学习处理器单元,接受来自文本图卷积处理器的高表达特征,然后通过所述集成学习处理器的多个基分类器C1,C2,…,Cm对输入的特征进行标签预测,得到文本对应的临时类别标签P1,P2,…,Pm。
得到的临时类别P1,P2,…,Pm组合成向量形式(P1,P2,…,Pm),称为新特征。
将新特征通过所述集成学习处理器的融合单元进行处理,融合单元实质是个投票分类器。新特征经过所述投票分类器进行投票分类,将文本对应的文本临时标签进行计数。对应分类含有所述临时分类标签数最多的则设置为所述文本的分类标签标号,即少数服从多数原则。
经过所述集成学习处理器处理后的分类标号,传入到结果输出元件中。
结果输出元件通文本对应的分类标号进行映射,得到文本的最终分类结果。即广告类型。
通过文分类处理器得到的结果,再输出到I/O设备中,如果输出的结果是广告的类型,再对文本进行过滤处理。
本申请实施例提供的基于文本分类的广告推送系统,获取目标文本,通过目标文本构建一个大型的异构图,并通过词共现和逐点互信息表示节点之间的权值,再通过一个两层文本图卷积神经网络进行特征提取,提取高效的特征表达,再将提取的特征传入到之后的特征Stacking集成学习部件中进行集成学习,以大大提高对应文本的分类准确率。通过构建的装置,对输入的文本进行判别,判断对应文本所属广告信息的类别,以对广告信息进行相应的处理,可以以高准确率识别广告信息所属的类别,对广告进行准确高效的推送,增强用户体验。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于文本分类的广告推送方法,其特征在于,包括以下步骤:
获取目标文本,所述目标文本为本地文本数据和/或网络文本数据;
基于词共现和逐点互信息对所述目标文本进行处理,得到异构图的边权值,建立文本异构图;
将所述文本异构图输入文本图卷积特征提取模型中进行特征提取,得到具有高表达能力的特征向量;
将所述特征向量输入stacking集成学习模块中学习,得到所述目标文本的分类结果;
根据所述分类结果向用户推送感兴趣的广告文本。
2.根据权利要求1所述的基于文本分类的广告推送方法,其特征在于,所述基于词共现和逐点互信息对所述目标文本进行处理,得到异构图的边权值,建立文本异构图,包括:
基于词共现和逐点互信息建立所述目标文本的边权值计算模型;
根据所述计算模型计算所述目标文本的异构图的边权值,得到所述目标文本的异构图;
所述计算模型为:
Figure FDA0002953868790000011
其中,
Figure FDA0002953868790000012
N为文本卷积所用到的滑动窗口总数,N(i,j)为同时包含节点i,j的滑动窗口,N(i)为包含节点i的滑动窗口数,Ai,j为节点i,j对应的异构图的边权值。
3.根据权利要求1所述的基于文本分类的广告推送方法,其特征在于,所述stacking集成学习模块包括两层结构,第一层为基分类器层,包含有多个基分类器,第二层为融合层,包含单个用于将所述基分类器层的基分类器融合的融合分类器。
4.根据权利要求1所述的基于文本分类的广告推送方法,其特征在于,所述融合分类器为投票器,采用少数服从多数原则确定分类结果。
5.根据权利要求1所述的基于文本分类的广告推送方法,其特征在于,将所述文本异构图输入文本图卷积特征提取模型中进行特征提取时,所述文本图卷积特征提取模型通过分层传播方式进行传播,传播规则为:
Figure FDA0002953868790000021
其中,
Figure FDA0002953868790000022
A为异构图的n邻接矩阵,n为异构图上的顶点个数,IN为n阶单位矩阵,
Figure FDA0002953868790000023
Figure FDA0002953868790000024
矩阵对应的度矩阵,
Figure FDA0002953868790000025
W(l)为l层的权重矩阵,σ为激活函数,H(l)为文本图卷积网络的第l层的输出。
6.一种基于文本分类的广告推送装置,其特征在于,包括:
获取模块,用于获取目标文本,所述目标文本为本地文本数据和/或网络文本数据;
异构图模块,用于基于词共现和逐点互信息对所述目标文本进行处理,得到异构图的边权值,建立文本异构图;
特征提取模块,用于将所述文本异构图输入文本图卷积特征提取模型中进行特征提取,得到具有高表达能力的特征向量;
分类学习模块,用于将所述特征向量输入stacking集成学习模块中学习,得到所述目标文本的分类结果;
推送模块,用于根据所述分类结果向用户推送感兴趣的广告文本。
7.根据权利要求6所述的基于文本分类的广告推送方法,其特征在于,所述异构图模块具体用于:
基于词共现和逐点互信息建立所述目标文本的边权值计算模型;
根据所述计算模型计算所述目标文本的异构图的边权值,得到所述目标文本的异构图;
所述计算模型为:
Figure FDA0002953868790000026
其中,
Figure FDA0002953868790000027
N为文本卷积所用到的滑动窗口总数,N(i,j)为同时包含节点i,j的滑动窗口,N(i)为包含节点i的滑动窗口数,Ai,j为节点i,j对应的异构图的边权值。
8.根据权利要求6所述的基于文本分类的广告推送方法,其特征在于,所述stacking集成学习模块包括两层结构,第一层为基分类器层,包含有多个基分类器,第二层为融合层,包含单个用于将所述基分类器层的基分类器融合的融合分类器。
9.根据权利要求6所述的基于文本分类的广告推送方法,其特征在于,所述融合分类器为投票器,采用少数服从多数原则确定分类结果。
10.一种基于文本分类的广告推送系统,其特征在于,包括I/O设备、接口层、模型层、硬件平台和推送模块;
所述接口层为tensorflow或者pytorch接口,所述模型层为文本分类处理器,所述硬件平台为GPU/CPU;
所述文本分类处理器包括文本数据加载元件、文本卷积处理器、stacking集成学习处理器和结果输出元件;
所述文本数据加载元件用于加载所述I/O设备读取的目标文本,所述目标文本为本地文本数据和/或网络文本数据;
所述文本卷积处理器用于基于词共现和逐点互信息对所述目标文本进行处理,得到异构图的边权值,建立文本异构图,将所述文本异构图输入文本图卷积特征提取模型中进行特征提取,得到具有高表达能力的特征向量;
所述stacking集成学习处理器用于接收所述文本卷积处理器的特征向量,利用stacking集成学习对所述特征向量进行预测,得到所述目标文本的分类标签标号;
所述结果输出元件用于将所述目标文本的对应的分类标签标号进行映射,得到分类结果;
所述GPU/CPU用于驱动所述文本分类处理器进行工作;
所述推送模块用于根据所述分类结果向用户推送感兴趣的广告文本。
CN202110216168.6A 2021-02-26 2021-02-26 一种基于文本分类的广告推送方法、装置和系统 Pending CN112818112A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110216168.6A CN112818112A (zh) 2021-02-26 2021-02-26 一种基于文本分类的广告推送方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110216168.6A CN112818112A (zh) 2021-02-26 2021-02-26 一种基于文本分类的广告推送方法、装置和系统

Publications (1)

Publication Number Publication Date
CN112818112A true CN112818112A (zh) 2021-05-18

Family

ID=75864032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110216168.6A Pending CN112818112A (zh) 2021-02-26 2021-02-26 一种基于文本分类的广告推送方法、装置和系统

Country Status (1)

Country Link
CN (1) CN112818112A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113888211A (zh) * 2021-09-23 2022-01-04 北京奇艺世纪科技有限公司 一种广告推送方法、装置、电子设备及存储介质
CN113919893A (zh) * 2021-12-14 2022-01-11 腾讯科技(深圳)有限公司 信息推送方法、装置、电子设备和可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN111552803A (zh) * 2020-04-08 2020-08-18 西安工程大学 一种基于图小波网络模型的文本分类方法
CN112015863A (zh) * 2020-08-26 2020-12-01 华东师范大学 一种基于图神经网络的多元特征融合中文文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN111552803A (zh) * 2020-04-08 2020-08-18 西安工程大学 一种基于图小波网络模型的文本分类方法
CN112015863A (zh) * 2020-08-26 2020-12-01 华东师范大学 一种基于图神经网络的多元特征融合中文文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THOMAS N. KIPF等: "Semi-Supervised Classification with Graph Convolutional Networks", 《ICLR 2017》 *
YAOLIANG等: "Graph Convolutional Networks for Text Classification", 《ARXIV.ORG》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113888211A (zh) * 2021-09-23 2022-01-04 北京奇艺世纪科技有限公司 一种广告推送方法、装置、电子设备及存储介质
CN113919893A (zh) * 2021-12-14 2022-01-11 腾讯科技(深圳)有限公司 信息推送方法、装置、电子设备和可读介质
CN113919893B (zh) * 2021-12-14 2022-03-15 腾讯科技(深圳)有限公司 信息推送方法、装置、电子设备和可读介质

Similar Documents

Publication Publication Date Title
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN112084383B (zh) 基于知识图谱的信息推荐方法、装置、设备及存储介质
WO2021203819A1 (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN108182279B (zh) 基于文本特征的对象分类方法、装置和计算机设备
US20230102337A1 (en) Method and apparatus for training recommendation model, computer device, and storage medium
US20220405480A1 (en) Text sentiment analysis method based on multi-level graph pooling
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN108885623B (zh) 基于知识图谱的语意分析系统及方法
CN111444428A (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN112328909A (zh) 信息推荐方法、装置、计算机设备及介质
CN112818112A (zh) 一种基于文本分类的广告推送方法、装置和系统
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
CN113095080A (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN111177367A (zh) 案件分类方法、分类模型训练方法及相关产品
CN112328657A (zh) 特征衍生方法、装置、计算机设备及介质
CN114138968A (zh) 一种网络热点的挖掘方法、装置、设备及存储介质
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN108304568B (zh) 一种房地产公众预期大数据处理方法及系统
CN114912011A (zh) 一种基于内容提取与评分预测的视频推荐方法
CN113919361A (zh) 一种文本分类方法和装置
CN116127386B (zh) 一种样本分类方法、装置、设备和计算机可读存储介质
Huang Research on sentiment classification of tourist destinations based on convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210518