CN110889717A - 文本中的广告内容过滤方法、装置、电子设备及存储介质 - Google Patents
文本中的广告内容过滤方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110889717A CN110889717A CN201911115512.1A CN201911115512A CN110889717A CN 110889717 A CN110889717 A CN 110889717A CN 201911115512 A CN201911115512 A CN 201911115512A CN 110889717 A CN110889717 A CN 110889717A
- Authority
- CN
- China
- Prior art keywords
- text
- advertisement content
- word
- content
- filtering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Abstract
本公开提供了一种文本中的广告内容过滤方法、装置、电子设备及存储介质,涉及自然语言处理领域,所述方法包括:获取待过滤广告内容的文本;基于使用FastText模型所预训练的词向量,获取所述文本中的各词语分别对应的词向量;将所述词向量输入包含级联注意力层的神经网络,获取所述各词语分别对应的广告内容分类结果;基于所述广告内容分类结果,对所述文本进行广告内容过滤。本公开实施例能够提高文本中的广告内容过滤的准确率。
Description
技术领域
本公开涉及自然语言处理领域,具体涉及一种文本中的广告内容过滤方法、装置、电子设备及存储介质。
背景技术
随着信息技术的发展,人们日常生活中每天都会在互联网上频繁阅读各种文本,例如:公众号文章、新闻资讯。在全民线上阅读的情况下,许多文本生产者或者文本搬运者为了提高效益,经常在文本中添加广告内容。这一行为无疑对用户体验造成了不良影响。
为了避免广告内容对用户体验的不良影响,就出现了对文本中的广告内容进行过滤的需求。在现有技术中,对文本中的广告内容进行过滤时,采用的是无监督技术,例如:基于敏感词库与规则的匹配进行广告内容的分类、过滤。这种方法对广告内容的分类准确率低,无法满足对文本中的广告内容的过滤需求。
发明内容
本公开的一个目的在于提出一种文本中的广告内容识别方法、装置、电子设备及存储介质,能够提高对文本中的广告内容的过滤准确率。
根据本公开实施例的一方面,公开了一种文本中的广告内容过滤方法,所述方法包括:
获取待过滤广告内容的文本;
基于使用FastText模型所预训练的词向量,获取所述文本中的各词语分别对应的词向量;
将所述词向量输入包含级联注意力层的神经网络,获取所述各词语分别对应的广告内容分类结果;
基于所述广告内容分类结果,对所述文本进行广告内容过滤。
根据本公开实施例的一方面,公开了一种文本中的广告内容过滤装置,所述装置包括:
第一获取模块,用于获取待过滤广告内容的文本;
第二获取模块,用于基于使用FastText模型所预训练的词向量,获取所述文本中的各词语分别对应的词向量;
第三获取模块,用于将所述词向量输入包含注意力层的神经网络,获取所述各词语分别对应的广告内容分类结果;
过滤模块,用于基于所述广告内容分类结果,对所述文本进行广告内容过滤。
根据本公开实施例的一方面,公开了一种文本中的广告内容过滤电子设备,包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行以上权利要求中的任一个所述的方法。
根据本公开实施例的一方面,公开了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行以上权利要求中的任一个所述的方法。
本公开实施例通过将使用FastText模型得到预训练的词向量与引入了注意力机制的神经网络进行结合,改进了对文本中的广告内容进行过滤所使用的模型网络结构,从而提高了文本中的广告内容过滤的准确率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参考附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
图1A示出了根据本公开一个实施例的文本中的广告内容识别所应用的体系构架。
图1B示出了根据本公开一个实施例的文本中的广告内容识别中各终端的交互过程。
图1C示出了根据本公开一个实施例的文本中的广告内容识别中各终端的交互过程。
图2示出了根据本公开一个实施例的文本中的广告内容识别方法的流程图。
图3示出了根据本公开一个实施例的文本中的广告内容识别所应用的模型网络结构。
图4示出了根据本公开一个实施例的文本中的广告内容识别装置的框图。
图5示出了根据本公开一个实施例的文本中的广告内容识别电子设备的硬件结构图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本公开的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本公开实施例涉及人工智能领域,更进一步的,涉及人工智能领域中的自然语言处理领域以及机器学习领域。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本公开实施例基于人工智能技术,更具体的,本公开实施例基于自然语言处理技术以及机器学习,对文本中的广告内容进行高准确率的过滤。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。具体的,本公开实施例中,基于自然语言处理技术对文本进行处理,是实现过滤文本中的广告内容的基础。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。具体的,本公开实施例中,结合机器学习中的FastText模型以及自然语言处理技术,对文本进行处理。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本公开实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明:
下面首先参考图1A-1C描述本公开实施例的文本中的广告内容过滤的体系构架。
图1A示出了本公开一实施例的文本中的广告内容过滤的基本体系构架组成:文本处理服务器10、文本生产端20、文本接收端30。其中,文本生产端20用于进行文本的生产、上传;文本处理服务器10作为本公开实施例的执行主体,接收到文本生产端20上传的文本后,对文本进行广告内容的过滤,去除与文本的主体内容无关的广告部分,再将广告内容过滤后的文本进行发布,发送给文本接收端30。
可以理解的,图1A所示的仅仅是本公开可能应用的一种体系构架,用以展示在具体的应用中本公开大致完整的构架组成。并不代表在具体的应用中,本公开的实现必须严格地依赖于该体系构架。例如,在一实施例中,即使不存在文本生产端20将生产的文本发送给文本处理服务器10,文本处理服务器10也能够对预先存储的文本进行广告内容过滤。该实施例只是示例性的说明,并不对本公开的功能和使用范围造成限制。
需要说明的是,图1A中终端间的单向箭头表示的仅是文本传递的方向,并不代表终端间只能根据单向箭头所示、单向地进行通讯。可以理解的,除了文本的单向传递外,终端间还可以相互进行各种双向通讯,在此不再赘述。
图1B进一步示出了本公开一实施例中文本中的广告内容过滤的各终端的交互过程。该实施例中,文本处理服务器10获取到文本生产端20生产的文本后,在发布该文本之前,根据本公开提供的方法,对该待发布的文本进行广告内容过滤。广告内容过滤完成后,再将经过广告内容过滤的文本进行发布,发送给文本接收端30。
例如,在一实施例中,文本处理服务器10为公众号服务器,用以对各公众号的运作进行管理;文本生产端20为公众号管理端,用以供公众号管理员管理其注册的公众号;文本接收端30为公众号订阅端,用以供公众号订阅读者阅读公众号。
公众号管理员可通过公众号管理端进行公众号文章的生产,进而将生产出的公众号文章上传至公众号服务器;公众号服务器接收到公众号文章后,对该公众号文章进行广告内容过滤,去除公众号文章中与文章主体内容无关的广告部分,再将广告内容过滤后的公众号文章进行发布,发送给公众号订阅端,以使得公众号订阅读者可以通过公众号订阅端阅读不含广告的公众号文章。
需要说明的是,该实施例只是示例性的说明,并不对本公开的功能和使用范围造成限制。
图1C进一步示出了本公开另一实施例中文本中的广告内容过滤的各终端的交互过程。该实施例中,文本处理服务器10获取到文本生产端20生产的文本后,将该文本进行发布,发送给文本接收端30。文本处理服务器10对已发布的文本进行巡检、广告内容过滤,若识别出并过滤掉其中包含的广告内容,文本处理服务器10再将过滤了广告内容的文本重新发布,发送给文本接收端30。
例如,在一实施例中,文本处理服务器10为新闻资讯服务器,用以汇集各种来源的新闻资讯进行集中展示;文本生产端20为各地方报社平台或者自媒体平台,用以供新闻工作者生产第一手新闻资讯;文本接收端30为新闻资讯订阅端,用以供新闻资讯订阅读者阅读新闻资讯。
新闻资讯服务器接收并汇集各地方报社平台或者自媒体平台生产的新闻资讯后,便进行发布,供新闻资讯订阅读者阅读。同时,新闻资讯服务器的巡检模块,根据本公开所提供的方法,实时对已发布的文本进行巡检、广告内容过滤。若检测出其中一个已发布的文本包含广告内容,则将该文本中的广告内容进行过滤,并将过滤了广告内容的文本重新发布,发送给新闻资讯订阅端,使得新闻资讯订阅读者可以通过新闻资讯订阅端阅读不含广告内容的新闻资讯。
需要说明的是,该实施例只是示例性的说明,并不对本公开的功能和使用范围造成限制。
下面对本公开所提供的文本中的广告内容过滤方法的具体过程进行详细描述。
本公开实施例的执行主体为图1A-1C所示的文本处理服务器。具体的,根据应用场景的不同,相应的执行主体可以为公众号服务器,也可以为新闻资讯服务器。需要说明的是,有关执行主体的说明只是示例性的,不应对本公开的功能和使用范围造成限制。
参考图2所示,本公开提供了一种文本中的广告内容过滤方法,包括:
410、获取待过滤广告内容的文本;
420、基于使用FastText模型所预训练的词向量,获取所述文本中的各词语分别对应的词向量;
430、将所述词向量输入包含注意力层的神经网络,获取所述各词语分别对应的广告内容分类结果;
440、基于所述广告内容分类结果,对所述文本进行广告内容过滤。
FastText模型是自然语言处理领域中,一种现有的开源的词向量与文本分类模型。其将以向量形式表示的各词语、以及各词语分别对应的N-Gram特征作为输入,输出文本对应的标签。在其输出中,存在一种输出副产物——各词语分别对应的embedding向量,即本公开中所指的“词向量”。其中,embedding向量是指经过降维处理的向量;N-Gram特征是指用来评估词语之间差异程度的词语特征。本公开实施例中,将向量形式表示的各词语、以及各词语分别对应的N-Gram特征作为FastText模型的输入,即可得到各词语对应的词向量。
具体的,FastText模型的模型结构依次由输入层、隐含层、输出层组成。其中,文本中每个词语对应的向量以及对应的N-Gram特征作为输入层的输入;之后再经过对多个向量进行叠加平均的隐含层;最终由输出层输出文本的标签。其中,输出层在输出文本的标签的同时,会输出每个词语对应的embedding向量。本公开实施例中,将FastText模型输出的每个词语对应的embedding向量作为每个词语对应的词向量。
注意力层是指基于注意力机制建立的神经网络层。注意力机制模拟的是人类的信息处理过程:由于信息处理能力的限制,人类在处理信息时,会选择性地关注部分信息,同时忽略或者弱化其他部分的信息。通过引入注意力机制,能够大幅提升神经网络的性能。
具体的,本公开实施例中涉及到的注意力层主要包括:multi-head attention多头注意力层、self-attention自注意力层。其中,多头注意力层是基于多头注意力机制建立的神经网络层,多头注意力是利用多个查询,平行地计算从输入信息中选取多个信息;自注意力层是基于自注意力机制建立的神经网络层,自注意力是自己对自己计算权重。由于有关注意力层原理的内容为现有技术,故在此不再赘述。
本公开实施例中,采用FastText模型以及引入了注意力机制的神经网络对文本中的广告内容进行过滤。具体的,采用FastText模型对词语进行预训练,得到预训练的词向量;进而在此基础上,得到待过滤广告内容的文本中各词语对应的词向量;再将待过滤广告内容的文本中各词语对应的词向量输入包含有注意力层的神经网络,从而以更高的精准度得到各词语分别对应的广告内容分类结果。在此基础上,大幅提高文本的广告内容过滤的准确率。
可以理解的,根据本公开提供的方法,本公开实施例所能过滤的不仅限于广告内容。根据实际应用需求的改变,本公开实施例所能过滤的还可以为与文本主体内容无关的无关内容。
下面对本公开各步骤的具体过程分别进行详细描述。
步骤410中,获取待过滤广告内容的文本。
本公开实施例中,待过滤广告内容的文本理论上可以为任意文本。落实到具有应用价值的应用场景——线上文本的处理场景,待过滤广告内容的文本可以为公众号文章、新闻资讯或者任意线上平台文章。在将这些线上平台文章(例如:公众号文章、新闻资讯)发布前,为了避免广告内容对用户阅读体验的影响,对应的线上平台(例如:公众号服务器、新闻资讯服务器)将这些线上平台文章作为待过滤广告内容的文本,以进行广告内容的过滤。
在一实施例中,执行主体为公众号服务器。当公众号服务器接收到由公众号管理端实时上传的待发布的公众号文章后,将该公众号文章作为待过滤广告内容的文本。
在一实施例中,执行主体为新闻资讯处理服务器。新闻资讯服务器实时对已发布的新闻资讯进行抓取,将抓取到的新闻资讯作为待过滤广告内容的文本。
需要说明的是,有关执行主体的实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
步骤420、基于FastText模型所预训练的词向量,获取所述文本中的各词语分别对应的词向量。
本公开实施例中,预先使用FastText模型对词语进行训练,得到词语对应的词向量。具体的,可以预先设置包含有各个常用词的语料集,使用FastText模型对该语料集中的所有词进行处理,从而得到该语料集中每个词语对应的词向量。可以理解的,对语料集中的每个词语预训练得到的词向量表征着该词语在该语料集中的语义定位。只要语料集足够大,该词向量是具有普适性的,所以该预训练的词向量同样能够准确表征该词语在特定文本中的语义定位。
同时,词向量就是词语的向量形式表示,可以看作词向量与对应的词语是存在绑定关系的。由此可见,基于FastText模型预训练的词向量,即可获取待过滤广告内容的文本中各词语分别对应的词向量。
在一实施例中,通过以下方法使用FastText模型预训练词向量:
获取预设的语料集;
将所述语料集中的各词语输入预设的N-Gram模型,得到所述各词语分别对应的N-Gram特征;
将所述各词语以及所述各词语分别对应的N-Gram特征输入预设的FastText模型,得到所述各词语分别对应的词向量。
该实施例中,预先设置包含足够多词语的语料集,使得语料集内包含的词语能够基本覆盖各待过滤广告内容的文本所包含的词语。将语料集中的各词语输入预设的N-Gram模型,得到各词语分别对应的N-Gram特征,从而使得FastText模型能够以各词语以及对应的N-Gram特征为输入,进而得到各词语对应的词向量。
需要说明的是,使用N-Gram模型得到词语的N-Gram特征为现有技术内容,故在此不再赘述。
在一实施例中,在所述基于FastText模型所预训练的词向量,获取所述文本中的各词语分别对应的词向量之前,包括:对所述文本的文本内容中所有文字内容进行分词,得到所述文本中的各词语。
该实施例中,基于FastText模型所预训练的词向量,根据词向量与对应词语的绑定关系,只要确定待过滤广告内容的文本所包含的各词语,再进行对比,即可得到该文本中的各词语分别对应的词向量。
因此,该实施例中,在获取待过滤广告内容的文本中各词语分别对应的词向量之前,先对其文本内容中的所有文字内容进行分词,确定该文本中包含的各词语。
需要说明的是,对文字内容进行分词的技术为现有技术,故在此不再赘述。
在一实施例中,所述文本的文本内容由文字内容和图片内容组成,在所述对所述文本中所有文字内容进行分词,得到所述文本中的各词语之前,包括:基于光学字符识别技术,提取出所述图片内容中的文字内容。
可以理解的,文本除了包括能够直接提取的、以字符形式存在的文字内容;还包括无法直接提取的、以像素形式或者其他形式存在于图片中的文字内容。无论是哪一种形式的文字内容,都可以作为广告内容的载体呈现给用户。因此,为了更全面地对广告内容过滤,需要对图片中存在的文字内容进行提取,将图片中存在的文字内容纳入广告内容过滤的考量范围。
该实施例中,在获取待过滤广告内容的文本中的各词语分别对应的词向量之前,更具体的,在对该文本中所有文字内容进行分词,得到该文本中的各词语之前,基于光学字符识别技术,提取出该文本中图片内容中的文字内容。
该实施例的优点在于,通过对图片中的文字内容进行提取,提高了广告内容识别的覆盖率。
下面描述获取待过滤广告内容文本中的各词语分别对应的词向量之后,对词向量的详细处理过程。
在步骤430中,将所述词向量输入包含注意力层的神经网络,获取所述各词语分别对应的广告内容分类结果。
本公开实施例中,得到待过滤广告内容文本中的各词语分别对应的词向量后,将这些词向量作为神经网络的输入,由神经网络基于输入的词向量对相应的词语进行广告内容分类,判断哪些词语属于广告内容。其中,本公开实施例中的神经网络引入了注意力机制,包含注意力层,从而能够更为精准地进行广告内容分类。
图3示出了本公开一实施例对文本进行广告内容过滤的所应用的模型网络结构:神经网络由注意力层以及池化层、全连接层级联组成,进一步的,注意力层由multi-headattention多头注意力层、self-attention自注意力层级联组成。该实施例中,使用FastText所预训练的词向量作为神经网络的输入,依次经过多头注意力层、自注意力层、池化层、全连接层的处理,从而输出各词语分别对应的广告内容分类结果。其中,池化层以及全连接层为神经网络领域中通用的结构,故在此不再赘述。
本公开通过将FastText模型与该包含注意力层的神经网络进行结合,对用于广告内容过滤的模型网络结构进行了改进。通过这种改进,克服了现有技术中依赖无监督技术对广告内容的分类识别召回率低且需要频繁更新敏感词库和匹配规则的缺陷,提高了广告内容分类的准确率同时,也能够提高广告内容分类的召回率以及鲁棒性。从而能够在此基础上,提高广告内容过滤的准确率的同时,提高广告内容过滤的召回率以及鲁棒性。
在步骤440中,基于所述广告内容分类结果,对所述文本进行广告内容过滤。
在一实施例中,所述基于所述广告内容分类结果,对所述文本进行广告内容过滤,包括:
基于所述广告内容分类结果,确定所述文本中的广告内容所在区域;
将所述所在区域内的文本内容从所述文本中清除。
该实施例中,得到广告内容分类结果后,即可确定文本中哪些词语是广告内容,从而可以确定文本中的广告内容所在区域。将该区域内的文本内容进行清除,即实现广告内容的过滤。
例如:一公众号文章由文字和图片组成。其中,该公众号文章的第20段文字中各词语对应的广告内容分类结果均为“非广告内容”,则可以确定第20段的文字内容属于广告内容,则将第20段从该公众号文章中清除;图片A中文字内容的各词语对应的广告内容分类结果均为“非广告内容”,则可以确定图片A不属于广告内容,则不对图片A进行清除;图片B中文字内容的各词语对应的广告内容分类结果均为“广告内容”,则可以确定图片B属于广告内容,则将图片B从该公众号文章中清除,从而实现广告内容的过滤。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
下面对本公开一实施例的整体执行过程进行详细描述,以展示本公开在实际应用中的大致表现。
在一实施例中,进行广告内容过滤的执行主体为公众号服务器,待过滤广告内容的文本为在h5(第5代html,即,第5代超文本标记语言)详情页上的公众号文章。
公众号服务器接收到公众号文章后,根据html结构提取出该公众号文章中包含的文字内容、图片内容;根据光学字符识别技术,提取出图片内容包含的文字内容。基于FastText模型所预训练的词向量,获取所有文字内容中各词语分别对应的词向量;将各词语分别对应的词向量输入包含有注意力层的神经网络,由该神经网络对各词语进行分类,从而得到各词语分别对应的广告内容分类结果。从而公众号服务器能够确定该公众号文章中的哪部分区域为广告内容所在区域,进而该区域的内容进行清除,从而实现广告内容的过滤。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在一实施例中,在所述获取待过滤广告内容的文本之前,包括:接入实时文本处理链路,所述实时文本处理链路用于实时对文本进行处理;
所述获取待过滤广告内容的文本,包括:从所述实时文本处理链路获取待过滤广告内容的文本,以实时对所述文本进行广告内容过滤。
该实施例中,本公开所提供的方法被封装为一完整的线上服务模块,接入实时文本处理链路中,从而实时地对该实时文本处理链路上流转的文本进行实时的广告内容过滤。
该实施例的优点在于,接入实时文本处理链路,使得本公开实施例能根据应用场景的需求,相应地实时进行广告内容的过滤。
具体的,在一实施例中,公众号文章处理服务器在云端搭设有一条实时文章处理链路,用以对接收到的待发布的公众号文章进行一系列实时处理。该实施例中,该实时文章处理链路依次由敏感内容审查模块、格式转换模块组成。待发布的公众号文章在发布之前,会经过该实时文章处理链路进行敏感内容的审查、格式转换。
若要对待发布的公众号文章进行广告内容的过滤,则可以将本公开提供的方法封装为完整的服务模块——广告内容过滤模块,将该广告内容过滤模块接入实时文章处理链路中,从而对实时文章处理链路上的文章进行实时的广告内容过滤。
例如:将广告内容过滤模块接在敏感内容审查模块之前,得到实时文章处理链路——广告内容过滤模块、敏感内容审查模块、格式转换模块。从而对经过该实时文章处理链路的文章依次进行广告内容过滤、敏感内容审查、格式转换。
需要说明的是,该实施例只是示例性的说明,并不对本公开的功能和使用范围造成限制。
具体的,在一实施例中,新闻看点服务器在云端搭设有一条实时文章巡检链路,用以对已发布的新闻文章进行一系列实时巡检。该实施例中,该实时文章巡检链路依次由来源审核模块、有效期审核模块组成。新闻看点服务器会实时抓取已发布的新闻文章,将抓取到的新闻文章输入该实时文章巡检链路中,进行来源审核、有效期审核。
若要在实时巡检中,增添对新闻文章的广告内容过滤,则可以将本公开提供的方法封装为完整的服务模块——广告内容过滤模块,将该广告内容过滤模块接入该实时文章巡检链路中,从而对抓取到的新闻文章实时进行广告内容过滤。
例如:将广告内容过滤模块接入来源审核模块与有效期审核模块之间,得到实时文章巡检链路——来源审核模块、广告内容过滤模块、有效期审核模块。从而通过该实时文章巡检链路,对抓取到的新闻文章实时地依次进行来源审核、广告内容过滤、有效期审核。
需要说明的是,该实施例只是示例性的说明,并不对本公开的功能和使用范围造成限制。
根据本公开一实施例,如图4所示,还提供了一种文本中的广告内容过滤装置,所述装置包括:
第一获取模块510,用于获取待过滤广告内容的文本;
第二获取模块520,用于基于使用FastText模型所预训练的词向量,获取所述文本中的各词语分别对应的词向量;
第三获取模块530,用于将所述词向量输入包含级联注意力层的神经网络,获取所述各词语分别对应的广告内容分类结果;
过滤模块540,用于基于所述广告内容分类结果,对所述文本进行广告内容过滤。
在本公开的一示例性实施例中,所述装置配置为:
获取预设的语料集;
将所述语料集中的各词语输入预设的N-Gram模型,得到所述各词语分别对应的N-Gram特征;
将所述各词语以及所述各词语分别对应的N-Gram特征输入预设的FastText模型,得到所述各词语分别对应的词向量。
在本公开的一示例性实施例中,所述装置配置为:对所述文本的文本内容中所有文字内容进行分词,得到所述文本中的各词语。
在本公开的一示例性实施例中,所述文本的文本内容由文字内容和图片内容组成,所述装置配置为:基于光学字符识别技术,提取出所述图片内容中的文字内容。
在本公开的一示例性实施例中,所述级联注意力层由multi-head attention多头注意力层、self-attention自注意力层级联组成。
在本公开的一示例性实施例中,所述过滤模块540配置为:基于所述广告内容分类结果,确定所述文本中的广告内容所在区域;
将所述所在区域内的文本内容从所述文本中清除。
在本公开的一示例性实施例中,所述装置配置为:
接入实时文本处理链路,所述文本处理链路用于实时对文本进行处理;
从所述实时文本处理链路获取待过滤广告内容的文本。
本公开实施例的文本中的广告内容过滤方法可以由图1A-1C所示的文本处理服务器10实现。下面参考图5来描述根据本公开实施例的文本处理服务器10。图5显示的文本处理服务器10仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,文本处理服务器10以通用计算设备的形式表现。文本处理服务器10的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图2中所示的各个步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
文本处理服务器10也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该文本处理服务器10交互的设备通信,和/或与使得该文本处理服务器10能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,文本处理服务器10还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与文本处理服务器10的其它模块通信。应当明白,尽管图中未示出,可以结合文本处理服务器10使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。
根据本公开的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RGM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如JGvG、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(KGN)或广域网(WGN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (10)
1.一种文本中的广告内容过滤方法,其特征在于,所述方法包括:
获取待过滤广告内容的文本;
基于使用FastText模型所预训练的词向量,获取所述文本中的各词语分别对应的词向量;
将所述词向量输入包含注意力层的神经网络,获取所述各词语分别对应的广告内容分类结果;
基于所述广告内容分类结果,对所述文本进行广告内容过滤。
2.根据权利要求1所述的方法,其特征在于,通过以下方法使用FastText模型预训练词向量:
获取预设的语料集;
将所述语料集中的各词语输入预设的N-Gram模型,得到所述各词语分别对应的N-Gram特征;
将所述各词语以及所述各词语分别对应的N-Gram特征输入预设的FastText模型,得到所述各词语分别对应的词向量。
3.根据权利要求1所述的方法,其特征在于,在所述基于使用FastText模型所预训练的词向量,获取所述文本中的各词语分别对应的词向量之前,包括:对所述文本的文本内容中所有文字内容进行分词,得到所述文本中的各词语。
4.根据权利要求3所述的方法,其特征在于,所述文本的文本内容由文字内容和图片内容组成,在所述对所述文本中所有文字内容进行分词,得到所述文本中的各词语之前,包括:基于光学字符识别技术,提取出所述图片内容中的文字内容。
5.根据权利要求1所述的方法,其特征在于,所述注意力层由multi-head attention多头注意力层、self-attention自注意力层级联组成。
6.根据权利要求1所述的方法,其特征在于,所述基于所述广告内容分类结果,对所述文本进行广告内容过滤,包括:
基于所述广告内容分类结果,确定所述文本中的广告内容所在区域;
将所述所在区域内的文本内容从所述文本中清除。
7.根据权利要求1所述的方法,其特征在于,在所述获取待过滤广告内容的文本之前,包括:接入实时文本处理链路,所述文本处理链路用于实时对文本进行处理;
所述获取待过滤广告内容的文本,包括:从所述实时文本处理链路获取待过滤广告内容的文本。
8.一种文本中的广告内容过滤装置,其特征在于,所述装置包括:
第一获取模块,用于获取待过滤广告内容的文本;
第二获取模块,用于基于使用FastText模型所预训练的词向量,获取所述文本中的各词语分别对应的词向量;
第三获取模块,用于将所述词向量输入包含注意力层的神经网络,获取所述各词语分别对应的广告内容分类结果;
过滤模块,用于基于所述广告内容分类结果,对所述文本进行广告内容过滤。
9.一种文本中的广告内容过滤电子设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-7中的任一个所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-7中的任一个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911115512.1A CN110889717A (zh) | 2019-11-14 | 2019-11-14 | 文本中的广告内容过滤方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911115512.1A CN110889717A (zh) | 2019-11-14 | 2019-11-14 | 文本中的广告内容过滤方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110889717A true CN110889717A (zh) | 2020-03-17 |
Family
ID=69747549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911115512.1A Pending CN110889717A (zh) | 2019-11-14 | 2019-11-14 | 文本中的广告内容过滤方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110889717A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052424A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种内容审核方法及装置 |
CN114691865A (zh) * | 2022-03-03 | 2022-07-01 | 支付宝(杭州)信息技术有限公司 | 一种基金产品的审核方法、装置以及设备 |
-
2019
- 2019-11-14 CN CN201911115512.1A patent/CN110889717A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052424A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种内容审核方法及装置 |
CN114691865A (zh) * | 2022-03-03 | 2022-07-01 | 支付宝(杭州)信息技术有限公司 | 一种基金产品的审核方法、装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347894A (zh) | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 | |
CN110598620B (zh) | 基于深度神经网络模型的推荐方法和装置 | |
CN106383875B (zh) | 基于人工智能的人机交互方法和装置 | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN110795568A (zh) | 基于用户信息知识图谱的风险评估方法、装置和电子设备 | |
EP4012564A1 (en) | Data processing method, data processing device, and storage medium | |
CN113761190A (zh) | 文本识别方法、装置、计算机可读介质及电子设备 | |
Rao et al. | A first look: Towards explainable textvqa models via visual and textual explanations | |
CN113705733A (zh) | 医疗票据图像处理方法及装置、电子设备、存储介质 | |
CN110889717A (zh) | 文本中的广告内容过滤方法、装置、电子设备及存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN114519397A (zh) | 基于对比学习的实体链接模型的训练方法、装置、设备 | |
CN116861258B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN112052424A (zh) | 一种内容审核方法及装置 | |
CN111898528A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN112165639A (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
US20210295036A1 (en) | Systematic language to enable natural language processing on technical diagrams | |
CN114638973A (zh) | 目标图像检测方法及图像检测模型训练方法 | |
CN114925757A (zh) | 多源威胁情报融合方法、装置、设备和存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN113051911A (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
CN111311197A (zh) | 差旅数据处理方法及装置 | |
CN113987114B (zh) | 一种基于语义分析的地址匹配方法、装置和电子设备 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
Malini Devi et al. | The Interview Master to Predict Personality Traits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40021917 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |