CN109740101A - 数据配置方法、公众号文章清洗方法、装置及系统 - Google Patents

数据配置方法、公众号文章清洗方法、装置及系统 Download PDF

Info

Publication number
CN109740101A
CN109740101A CN201910047036.8A CN201910047036A CN109740101A CN 109740101 A CN109740101 A CN 109740101A CN 201910047036 A CN201910047036 A CN 201910047036A CN 109740101 A CN109740101 A CN 109740101A
Authority
CN
China
Prior art keywords
text
article
picture
cleaned
interference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910047036.8A
Other languages
English (en)
Inventor
姚洲鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Fan Wen Science And Technology Ltd
Original Assignee
Hangzhou Fan Wen Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Fan Wen Science And Technology Ltd filed Critical Hangzhou Fan Wen Science And Technology Ltd
Priority to CN201910047036.8A priority Critical patent/CN109740101A/zh
Publication of CN109740101A publication Critical patent/CN109740101A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明公开一种数据配置方法、公众号文章清洗方法、装置及系统,方法包括:将公众号的待清洗文章与文本库进行文本匹配,得到待清洗文章中的匹配文本;文本库包括参考文章中已标记的至少一个干扰文本;根据文本库中与待清洗文章相匹配的干扰文本所对应的文本清洗方式,及待清洗文章中的匹配文本,对待清洗文章进行清洗,得到文本清洗结果;将文本清洗结果中的图片与图库进行图片相似度匹配,得到所述待清洗文章中的匹配图片;图库包括参考文章中带有标记的至少一个干扰图片;将所述匹配图片从文本清洗结果中清除。采用上述技术方案能够有效清除微信公众号所推送文章中的干扰信息,提高干扰信息的清除效率。

Description

数据配置方法、公众号文章清洗方法、装置及系统
技术领域
本发明涉及计算机技术领域,特别是涉及数据配置方法、公众号文章清洗方法、装置及系统。
背景技术
公众号文章,即微信公众号推送的文章,是公众获取媒体信息等内容的重要来源。目前大部分公众号的文章顶部或底部会带有宣传类的文字或者图片,如“点击蓝字,快来关注”等与公众号所推送文章的内容无关的文字或图片。这些无关的文字和图片,给需要对公众号的文章内容进行提取的用户造成了干扰。对于批量处理公众号的人来说,通过手动删除来清除掉这些干扰信息,不仅工作量大,效率低,而且容易遗漏或者误删。
发明内容
基于此,有必要提供一种数据配置方法、公众号文章清洗方法、装置及系统,能够有效清除微信公众号所推送文章中的干扰信息,提高干扰信息的清除效率。
一方面,本发明提供一种公众号文章清洗方法,其包括:
将公众号的待清洗文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;所述文本库包括参考文章中带有标记的至少一个干扰文本;
根据所述文本库中与所述待清洗文章相匹配的干扰文本所对应的文本清洗方式,及所述待清洗文章中的匹配文本,对所述待清洗文章进行清洗,得到文本清洗结果;
将所述文本清洗结果中的图片与图库进行图片相似度匹配,得到所述待清洗文章中的匹配图片;所述图库包括所述参考文章中已标记的至少一个干扰图片;
将所述匹配图片从所述文本清洗结果中清除;
其中,与所述干扰文本所对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待清洗文章中所述匹配文本所在段落进行删除的方式、对所述待清洗文章中所述匹配文本进行删除的方式或对所述待清洗文章中所述匹配文本之后的段落进行删除的方式。
相比于现有技术,本发明提供的公众号文章清洗方法通过正则语法,将待清洗文章与文本库的干扰文本进行匹配,并根据相匹配的干扰文本及其对应的文本清洗方式对待清洗文章进行清洗,通过针对不同干扰文本的文本清洗方式提高对干扰信息进行清除的灵活性和便携性,从而提高公众号文章的清洗效率;通过将文本清洗结果中的图片与图库中的干扰图片进行匹配,并将相匹配的图片从文本清洗结果中清除,有效实现干扰图片的清除,提高公众号文章的清洗效率。
在一种可选的实施方式中,所述干扰图片的标记为:“设置为干扰图片”、“设置为广告图片”、设置为“二维码图片”、“标记以上内容删除”、“标记以下内容删除”或“设置为正常图片”。
在一种可选的实施方式中,所述将公众号的待清洗文章与文本库进行文本匹配,包括:
检索所述待清洗文章中与所述干扰文本相同的文本;
将检索到的文本确定为所述待清洗文章的匹配文本。
在一种可选的实施方式中,所述方法还包括:
在将公众号的待清洗文章与文本库进行文本匹配之前,提供参考文章,并标记所述参考文章中的至少一个干扰文本;
根据所述参考文章中已标记的至少一个干扰文本创建文本库;
为所述至少一个干扰文本配置与所述干扰文本对应的文本清洗方式;
为所述参考文章中的至少一张干扰图片添加标记;
根据所述参考文章中带有标记的至少一张干扰图片创建图库。
在一种可选的实施方式中,所述方法还包括:
在将公众号的待清洗文章与文本库进行文本匹配之前,将同一所述公众号的参考文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;
根据所述文本库中与所述参考文章相匹配的干扰文本所对应的文本清洗方式,及所述参考文章中的匹配文本,对所述参考文章进行清洗,得到参考文章文本清洗结果;
将所述参考文章文本清洗结果中的图片与图库进行图片相似度匹配,得到所述参考文章中的匹配图片。所述图库包括所述参考文章中带有标记的至少一个干扰图片;
将所述参考文章中的匹配图片从所述文本清洗结果中清除。
在一种可选的实施方式中,所述将同一所述公众号的参考文章与文本库进行文本匹配,包括:
检索所述参考文章中与所述干扰文本相同的文本;
将检索到的文本确定为所述参考文章的匹配文本。
在一种可选的实施方式中,所述参考文章为同一所述公众号的任意一篇文章。
又一方面,本发明还提供一种公众号文章清洗装置,其包括:文本匹配模块,用于将公众号的待清洗文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;所述文本库包括参考文章中已标记的至少一个干扰文本;
文本清洗模块,用于根据所述文本库中与所述待清洗文章相匹配的干扰文本所对应的文本清洗方式,及所述待清洗文章中的匹配文本,对所述待清洗文章进行清洗,得到文本清洗结果;
图片匹配模块,用于将所述文本清洗结果中的图片与图库进行图片相似度匹配,得到所述待清洗文章中的匹配图片;所述图库包括所述参考文章中已标记的至少一个干扰图片;
图片清除模块,用于将所述匹配图片,从所述文本清洗结果中清除;
其中,与所述干扰文本所对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待清洗文章中所述匹配文本所在段落进行删除的方式、对所述待清洗文章中所述匹配文本进行删除的方式或对所述待清洗文章中所述匹配文本之后的段落进行删除的方式。
又一方面,本发明还提供一种公众号文章清洗系统,其包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的公众号文章清洗方法。
又一方面,本发明还提供一种数据配置方法,所述方法应用于如上述任一实施例所述的公众号文章清洗装置,其包括:
提供参考文章,并标记所述参考文章中的至少一个干扰文本;
根据所述参考文章中已标记的至少一个干扰文本创建文本库;
为所述至少一个干扰文本配置与所述干扰文本对应的文本清洗方式;
为所述参考文章中的至少一张干扰图片添加标记;
根据所述参考文章中带有标记的至少一张干扰图片创建图库;
其中,与所述干扰文本对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待清洗文章中所述匹配文本所在段落进行删除的方式、对所述待清洗文章中所述匹配文本进行删除的方式或对所述待清洗文章中所述匹配文本之后的段落进行删除的方式。
相比于现有技术,本发明提供的数据配置方法通过所述参考文章中的至少一个干扰文本构建文本库,并配置与所述干扰文本对应的文本清洗方式,针对不同干扰文本的文本清洗方式有利于提高对干扰信息进行清除的灵活性和便携性,进而提高干扰文本的清除效率;通过所述参考文章中带有标记的至少一张干扰图片创建图库,有利于为公众号文章中干扰图片的清洗提供参考,提高公众号文章的清洗效率。
附图说明
图1是本发明一实施方式中的公众号文章清洗装置的结构示意图;
图2是本发明一实施方式中的公众号文章清洗方法的流程示意图;
图3是本发明一实施方式中的公众号文章清洗系统的结构示意图;
图4是本发明一实施方式中的数据配置方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
请参阅图1,其是本发明一实施方式中的公众号文章清洗装置的结构示意图。本实施例提供的公众号文章清洗装置1,其包括文本匹配模块10、文本清洗模块20、图片匹配模块30和图片清除模块40。
文本匹配模块10用于将公众号的待清洗文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;所述文本库包括参考文章中已标记的至少一个干扰文本。
文本清洗模块20用于根据所述文本库中与所述待清洗文章相匹配的干扰文本所对应的文本清洗方式,及所述待清洗文章中的匹配文本,对所述待清洗文章进行清洗,得到文本清洗结果。
图片匹配模块30用于将所述文本清洗结果中的图片与图库进行图片相似度匹配,得到所述待清洗文章中的匹配图片。所述图库包括所述参考文章中带有标记的至少一个干扰图片。
图片清除模块40用于将所述匹配图片从所述文本清洗结果中清除;
其中,与所述干扰文本所对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待清洗文章中所述匹配文本所在段落进行删除的方式、对所述待清洗文章中所述匹配文本进行删除的方式或对所述待清洗文章中所述匹配文本之后的段落进行删除的方式。
参考文章为微信公众号所推送的文章,其可以是其他公众号的文章,也可以是所述公众号的文章。优选地,参考文章为所述公众号的任意一篇文章。通常,同一公众号推送的文章会采用类似的干扰文本,通过所述公众号的其他文章中已标记的干扰文本与同一公众号的待清洗文章进行匹配,能够更快捷、更准确地匹配出干扰文本。
进一步,所述干扰图片的标记为:“设置为干扰图片”、“设置为广告图片”、设置为“二维码图片”、“标记以上内容删除”、“标记以下内容删除”或“设置为正常图片”。
便于根据实际需求选择是否清洗广告图片,二维码图片和正常图片等,以及便于实现对匹配图片的管理,提高灵活性和友好性。
进一步,所述装置还包括:
第二提供模块,用于在将公众号的待清洗文章与文本库进行文本匹配之前,提供参考文章,并标记所述参考文章中的至少一个干扰文本;
第一创建模块,用于根据所述参考文章中已标记的至少一个干扰文本创建文本库;
配置模块,用于为所述至少一个干扰文本配置与所述干扰文本对应的文本清洗方式;
第三标记模块,用于为所述参考文章中的至少一张干扰图片添加标记;
第二创建模块,用于根据所述参考文章中带有标记的至少一种干扰图片创建图库。
其中,参考文章与待清洗文章同属于一个公众号。通过所述参考文章中的至少一个干扰文本构建文本库,并配置与所述干扰文本对应的文本清洗方式,针对不同干扰文本的文本清洗方式有利于提高对干扰信息进行清除的灵活性和便携性,进而提高干扰文本的清除效率;通过所述参考文章中带有标记的至少一张干扰图片创建图库,能够为同一公众号其他文章的干扰图片的清洗提供参考,提高公众号文章的清洗效率
进一步,所述装置还包括:参考文章匹配模块、参考文章文本清洗模块、参考文章图片匹配模块和参考文章图片清除模块。
参考文章匹配模块用于在将公众号的待清洗文章与文本库进行文本匹配之前,将同一所述公众号的参考文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;
参考文章文本清洗模块用于根据所述文本库中与所述参考文章相匹配的干扰文本所对应的文本清洗方式,及所述参考文章中的匹配文本,对所述参考文章进行清洗,得到参考文章文本清洗结果。
参考文章图片匹配模块用于将所述参考文章文本清洗结果中的图片与图库进行图片相似度匹配,得到所述参考文章中的匹配图片。所述图库包括所述参考文章中带有标记的至少一个干扰图片。
参考文章图片清除模块用于将所述参考文章中的匹配图片从所述文本清洗结果中清除。
通过对同一所述公众号的参考文章的匹配文本和匹配图片进行清除,便于根据清除效果调整干扰文本和干扰图片,提高数据清洗的准确度。
所述参考文章匹配模块包括:
参考文章检索单元,用于检索所述参考文章中与所述干扰文本相同的文本;
参考文章匹配文本确定单元,用于将检索到的文本确定为所述参考文章的匹配文本。
通过对同一所述公众号的参考文章的匹配文本和匹配图片进行清除,便于根据清除效果调整干扰文本和干扰图片,提高数据清洗的准确度。
可选的,所述匹配模块10包括文本查找单元和第一匹配文本确定单元,文本查找单元用于查找所述待清洗文章中与所述干扰文本语义相似的文本;第一匹配文本确定单元将查找到的文本确定为所述待清洗文章中的匹配文本。通过将语义相似的文本确定为匹配文本,减少噪声,提高公众号文章清洗的准确率和客观性。例如,假设图库中已标记的干扰文本包括“快关注公众号”和“本文仅代表作者观点,不代表本公众号立场”,文本查找单元查找到待清洗文章中的文本“关注小编”与干扰文本“快关注公众号”语义相似,文本“本文章仅代表作者本人观点,与本公众号立场无关”与干扰文本“阅读原文”语义相似,则将文本“关注小编”确定为匹配文本,将“本文章仅代表作者本人观点,与本公众号立场无关”确定为匹配文本。需要说明的是,上述干扰文本与匹配文本仅为示例,本发明不做限制。
可选的,文本查找单元具体用于基于语义树查找所述待清洗文章中与所述干扰文本语义相似的文本。
具体地,所述匹配模块10包括文本匹配单元和第二匹配文本确定单元。文本匹配单元用于检索所述待清洗文章中与所述干扰文本相同的文本;第二匹配文本确定单元将检索到的文本确定为所述待清洗文章的匹配文本。通过将与干扰文本相同的文本确定为匹配文本,提高匹配效率。
具体地,文本清洗方式与干扰文字对应,可提高文章清洗的灵活性。例如,对于干扰文字“快关注公众号”,文本清洗方式可对应配置为:对所述待清洗文章中所述匹配文本所在段落进行删除。又如,对于干扰文字“阅读原文”,文本清洗方式可对应配置为:对所述待清洗文章中所述匹配文本进行删除,以及对所述待清洗文章中所述匹配文本之后的段落进行删除。
具体地,图片匹配模块30包括相似度计算单元和匹配图片确定单元。
相似度计算单元用于计算所述文本清洗结果中的图片与所述图库中每张所述干扰图片的相似度。匹配图片确定单元用于将所述文本清洗结果中与所述干扰图片相似度最高的图片,确定为与所述干扰图片相匹配的图片。
通过图片相似度进行图片匹配,可提高文章清洗的准确性。
可选的,相似度计算单元包括特征提取子单元、第一计算单元、第二计算单元和乘法单元。特征提取子单元用于提取所述文本清洗结果中的图片的上下文属性特征向量和图像特征向量。其中,上下文属性包括图片前后的类别或图片所在版块位置。图片前后的类别包括文字、图片、视频和链接等。图片所在板块位置可通过文章排版顺序来定义。具体地,可通过对上下文属性进行赋值来构建上下文属性特征向量。图像特征包括图片的颜色、文理、形状或空间关系特征等。具体地,可以通过SIFT算法、SURF算法或HOG算法等图像特征提取算法对图片来提取图片的图像特征向量。
第一计算单元用于计算所述文本清洗结果中的图片的上下文属性特征向量和预先提取的所述干扰图片的上下文属性特征向量的距离,以根据所述上下文属性特征向量的距离计算上下文属性相似度。第二计算单元用于计算所述文本清洗结果中的图片的图像性特征向量和预先提取的所述干扰图片的图像特征向量的距离,以根据所述图像特征向量的距离计算图像相似度。乘法单元用于将所述上下文属性相似度与所述图像相似度相乘,得到所述文本清洗结果中的图片与所述图库中每张所述干扰图片的相似度。通过上下文属性相似度和图像相似度计算图片之间的相似度,能够在图像相似度较低时,通过上下文属性相似度识别待清洗文章中具有干扰作用的图片,例如,对于表情类图片,图库中的干扰图片和待清洗文章中的某张图片的图像相似度不高,但参考文章中干扰图片的上下文属性的数值与所述待清洗文章中所述某张图片的上下文属性相似度较高,其图片之前都是视频,则通过上下文属性相似度可将所述某张图片匹配出来,防止遗漏,进一步提高公众号文章清洗的效率和准确性。
可选的,所述文本库中参考文章的数量为多篇;所述图片匹配模块30包括参考文章查找单元和图片匹配单元。
参考文章查找单元用于查找所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章。图片匹配单元用于将所述文本清洗结果中的图片与查找到的参考文章中已标记的至少一个干扰图片进行匹配。
可选的,参考文章查找单元包括时间筛选子单元,用于将与所述待清洗文章的文章发布时间的时间间隔在预设时段内的参考文章,确定为所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章。
可选的,参考文章查找单元包括作者筛选子单元,用于将与所述待清洗文章具有相同作者的参考文章,确定为所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章。
可选的,参考文章查找单元包括版块比较子单元和参考文章确定子单元。版块比较子单元用于按照所述待清洗文章的版块顺序依次对所述待清洗文章的版块的预设版块编码与文本库中参考文章的版块的预设版块编码进行比较。参考文章确定子单元,用于将所述文本库中与所述待清洗文章的每个版块具有相同的预设版块编码的参考文章,确定为所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章。
通常,公众号会在一段时间采用通过查找所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章,有利于提高干扰图片的匹配效率和准确率,并将所述文本清洗结果中的图片与该参考文章中已标记的至少一个干扰图片进行匹配,
本实施例提供的公众号文章清洗装置通过正则语法,将待清洗文章与文本库的干扰文本进行匹配,并根据相匹配的干扰文本及其对应的文本清洗方式对待清洗文章进行清洗,通过针对不同干扰文本的文本清洗方式提高对干扰信息进行清除的灵活性和便携性,从而提高公众号文章的清洗效率;通过将文本清洗结果中的图片与图库中的干扰图片进行匹配,并将相匹配的图片从文本清洗结果中清除,有效实现干扰图片的清除,提高公众号文章的清洗效率。
请参阅图2,其是本发明一实施方式中的公众号文章清洗方法的流程示意图。如图2所示,所示清洗方法包括:
步骤S110、将公众号的待清洗文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;所述文本库包括参考文章中已标记的至少一个干扰文本;
步骤S120、根据所述文本库中与所述待清洗文章相匹配的干扰文本所对应的文本清洗方式,及所述待清洗文章中的匹配文本,对所述待清洗文章进行清洗,得到文本清洗结果;
步骤S130、将所述文本清洗结果中的图片与图库进行图片相似度匹配,得到所述待清洗文章中的匹配图片;所述图库包括所述参考文章中带有标记的至少一个干扰图片;
步骤S140、将所述匹配图片,从所述文本清洗结果中清除。
其中,与所述干扰文本所对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待清洗文章中所述匹配文本所在段落进行删除的方式、对所述待清洗文章中所述匹配文本进行删除的方式或对所述待清洗文章中所述匹配文本之后的段落进行删除的方式
参考文章为微信公众号所推送的文章,其可以是其他公众号的文章,也可以是所述公众号的文章。优选地,参考文章为同一所述公众号的任意一篇文章;通常,同一公众号推送的文章会采用类似的干扰文本,通过所述公众号的其他文章中已标记的干扰文本与同一公众号的待清洗文章进行匹配,能够更快捷、更准确地匹配出干扰文本。
进一步,所述干扰图片的标记为:“设置为干扰图片”、“设置为广告图片”、设置为“二维码图片”、“标记以上内容删除”、“标记以下内容删除”或“设置为正常图片”。
通过添加对应的标记,实现对匹配图片进行分类,便于根据实际需求选择是否清洗广告图片,二维码图片和正常图片等,以及便于实现对匹配图片的管理,提高灵活性和友好性。
进一步,所述方法还包括:
在将公众号的待清洗文章与文本库进行文本匹配之前,提供参考文章,并标记所述参考文章中的至少一个干扰文本;
根据所述参考文章中已标记的至少一个干扰文本创建文本库;
为所述至少一个干扰文本配置与所述干扰文本对应的文本清洗方式;
为所述参考文章中的至少一张干扰图片添加标记;
根据所述参考文章中带有标记的至少一张干扰图片创建图库。
进一步,所述方法还包括:
在将公众号的待清洗文章与文本库进行文本匹配之前,将同一所述公众号的参考文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;
根据所述文本库中与所述参考文章相匹配的干扰文本所对应的文本清洗方式,及所述参考文章中的匹配文本,对所述参考文章进行清洗,得到参考文章文本清洗结果。
将所述参考文章文本清洗结果中的图片与图库进行图片相似度匹配,得到所述参考文章中的匹配图片。所述图库包括所述参考文章中带有标记的至少一个干扰图片。
将所述参考文章中的匹配图片从所述文本清洗结果中清除。
通过对同一所述公众号的参考文章的匹配文本和匹配图片进行清除,便于根据清除效果调整干扰文本和干扰图片,提高数据清洗的准确度。
所述将同一所述公众号的参考文章与文本库进行文本匹配,包括:
检索所述参考文章中与所述干扰文本相同的文本;
将检索到的文本确定为所述参考文章的匹配文本。
可选的,步骤S110包括:
查找所述待清洗文章中与所述干扰文本语义相似的文本;
确定单元将查找到的文本确定为所述待清洗文章中的匹配文本。
进一步,所述查找所述待清洗文章中与所述干扰文本语义相似的文本,包括:
基于语义树查找所述待清洗文章中与所述干扰文本语义相似的文本。
进一步,步骤S110包括:
所述将公众号的待清洗文章与文本库进行文本相似度匹配,包括:
检索所述待清洗文章中与所述干扰文本相同的文本;
将检索到的文本确定为所述待清洗文章的匹配文本。
具体地,文本清洗方式与干扰文字对应,可提高文章清洗的灵活性。例如,对于干扰文字“快关注公众号”,文本清洗方式可对应配置为:对所述待清洗文章中所述匹配文本所在段落进行删除。又如,对于干扰文字“阅读原文”,文本清洗方式可对应配置为:对所述待清洗文章中所述匹配文本进行删除,以及对所述待清洗文章中所述匹配文本之后的段落进行删除。
进一步,步骤S130包括:
计算所述文本清洗结果中的图片与所述图库中每张所述干扰图片的相似度;
将所述文本清洗结果中与所述干扰图片相似度最高的图片,确定为与所述干扰图片相匹配的图片。
进一步,所述计算所述文本清洗结果中的图片与所述图库中每张所述干扰图片的相似度,包括:
提取所述文本清洗结果中的图片的上下文属性特征向量和图像特征向量;
计算所述文本清洗结果中的图片的上下文属性特征向量和预先提取的所述干扰图片的上下文属性特征向量的距离,以根据所述上下文属性特征向量的距离计算上下文属性相似度;
计算所述文本清洗结果中的图片的图像性特征向量和预先提取的所述干扰图片的图像特征向量的距离,以根据所述图像特征向量的距离计算图像相似度;
将所述上下文属性相似度与所述图像相似度相乘,得到所述文本清洗结果中的图片与所述干扰图片的相似度。
可选的,所述文本库中参考文章的数量为多篇;所述步骤S130包括:
查找所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章;
将所述文本清洗结果中的图片与查找到的参考文章中已标记的至少一个干扰图片进行匹配。
可选的,所述查找所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章,包括:
将与所述待清洗文章的文章发布时间的时间间隔在预设时段内的参考文章,确定为所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章。
可选的,所述查找所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章,包括:
将与所述待清洗文章具有相同作者的参考文章,确定为所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章。
可选的,所述查找所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章,包括:
按照所述待清洗文章的版块顺序依次对所述待清洗文章的版块的预设版块编码与文本库中参考文章的版块的预设版块编码进行比较;
将所述文本库中与所述待清洗文章的每个版块具有相同的预设版块编码的参考文章,确定为所述文本库中与所述待清洗文章具有相同的图文排版样式的参考文章
本实施例提供的公众号文章清洗方法通过正则语法,将待清洗文章与文本库的干扰文本进行匹配,并根据相匹配的干扰文本及其对应的文本清洗方式对待清洗文章进行清洗,通过针对不同干扰文本的文本清洗方式提高对干扰信息进行清除的灵活性和便携性,从而提高公众号文章的清洗效率;通过将文本清洗结果中的图片与图库中的干扰图片进行匹配,并将相匹配的图片从文本清洗结果中清除,有效实现干扰图片的清除,提高公众号文章的清洗效率。
本发明对应提供了一种公众号文章清洗系统的优选实施例,请参阅图3,其是本发明一实施方式中的公众号文章清洗系统的结构示意图。所述公众号文章清洗系统包括处理器301、存储器303以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序304,所述处理器301执行所述计算机程序304时实现如上述任一实施例所述的公众号文章清洗方法。或者,所述处理器301执行所述计算机程序304时实现上述系统各实施例中各模块的功能,例如文本匹配模块、文本清洗模块20、图片匹配模块30和图片清除模块40。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述公众号文章清洗系统中的执行过程。例如,所述计算机程序可以被分割成文本匹配模块10,用于将公众号的待清洗文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;所述文本库包括参考文章中已标记的至少一个干扰文本。文本清洗模块20,根据所述文本库中与所述待清洗文章相匹配的干扰文本所对应的文本清洗方式,及所述待清洗文章中的匹配文本,对所述待清洗文章进行清洗,得到文本清洗结果。图片匹配模块30,用于将所述文本清洗结果中的图片与图库进行图片相似度匹配;所述图库包括所述参考文章中带有标记的至少一个干扰图片;图片清除模块40,用于将所述文本清洗结果中的图片中与所述图库中任一所述干扰图片匹配的图片,从所述文本清洗结果中清除。
所述公众号文章清洗系统可以是手机、平板等用于公众号文章的清洗的系统。本领域技术人员可以理解,所述示意图仅仅是公众号文章清洗系统的示例,并不构成对公众号文章清洗系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,在一些实施方式中,所述公众号文章清洗系统还可以包括掉电保护电路、输入输出系统等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述公众号文章清洗系统的控制中心,利用各种接口和线路连接整个公众号文章清洗系统的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述公众号文章清洗系统的各种功能。,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
请参阅图4,其是本发明一实施方式中的数据配置方法的流程示意图。如图4所示,所述数据配置方法包括:
步骤S210、提供参考文章,并标记所述参考文章中的至少一个干扰文本;
步骤S220、根据所述参考文章中已标记的至少一个干扰文本创建文本库;
步骤S230、为所述至少一个干扰文本配置与所述干扰文本对应的文本清洗方式;
步骤S240、为所述参考文章中的至少一张干扰图片添加标记;
步骤S250、根据所述参考文章中带有标记的至少一张干扰图片创建图库;
其中,与所述干扰文本对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待清洗文章中所述匹配文本所在段落进行删除的方式、对所述待清洗文章中所述匹配文本进行删除的方式或对所述待清洗文章中所述匹配文本之后的段落进行删除的方式。
进一步,所述干扰图片的标记为:“设置为干扰图片”、“设置为广告图片”、设置为“二维码图片”、“标记以上内容删除”、“标记以下内容删除”或“设置为正常图片”。
通过添加对应的标记,实现对干扰图片进行分类,便于根据实际需求选择是否清洗广告图片,二维码图片和正常图片等,提高灵活性和友好性。
本实施例提供的数据配置方法通过所述参考文章中的至少一个干扰文本构建文本库,并配置与所述干扰文本对应的文本清洗方式,针对不同干扰文本的文本清洗方式有利于提高对干扰信息进行清除的灵活性和便携性,进而提高干扰文本的清除效率;通过所述参考文章中带有标记的至少一张干扰图片创建图库,有利于为公众号文章中干扰图片的清洗提供参考,提高公众号文章的清洗效率。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种公众号文章清洗方法,其特征在于,包括:
将公众号的待清洗文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;所述文本库包括参考文章中已标记的至少一个干扰文本;
根据所述文本库中与所述待清洗文章相匹配的干扰文本所对应的文本清洗方式,及所述待清洗文章中的匹配文本,对所述待清洗文章进行清洗,得到文本清洗结果;
将所述文本清洗结果中的图片与图库进行图片相似度匹配,得到所述待清洗文章中的匹配图片;所述图库包括所述参考文章中带有标记的至少一个干扰图片;
将所述匹配图片从所述文本清洗结果中清除;
其中,与所述干扰文本所对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待清洗文章中所述匹配文本所在段落进行删除的方式、对所述待清洗文章中所述匹配文本进行删除的方式或对所述待清洗文章中所述匹配文本之后的段落进行删除的方式。
2.根据权利要求1所述的公众号文章清洗方法,其特征在于,所述干扰图片的标记为:“设置为干扰图片”、“设置为广告图片”、设置为“二维码图片”、“标记以上内容删除”、“标记以下内容删除”或“设置为正常图片”。
3.根据权利要求1所述的公众号文章清洗方法,其特征在于,所述将公众号的待清洗文章与文本库进行文本匹配,包括:
检索所述待清洗文章中与所述干扰文本相同的文本;
将检索到的文本确定为所述待清洗文章的匹配文本。
4.根据权利要求1所述的公众号文章清洗方法,其特征在于,所述方法还包括:
在将公众号的待清洗文章与文本库进行文本匹配之前,提供参考文章,并标记所述参考文章中的至少一个干扰文本;
根据所述参考文章中已标记的至少一个干扰文本创建文本库;
为所述至少一个干扰文本配置与所述干扰文本对应的文本清洗方式;
为所述参考文章中的至少一张干扰图片添加标记;
根据所述参考文章中带有标记的至少一张干扰图片创建图库。
5.根据权利要求1所述的公众号文章清洗方法,其特征在于,所述方法还包括:
在将公众号的待清洗文章与文本库进行文本匹配之前,将同一所述公众号的参考文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;
根据所述文本库中与所述参考文章相匹配的干扰文本所对应的文本清洗方式,及所述参考文章中的匹配文本,对所述参考文章进行清洗,得到参考文章文本清洗结果;
将所述参考文章文本清洗结果中的图片与图库进行图片相似度匹配,得到所述参考文章中的匹配图片。所述图库包括所述参考文章中带有标记的至少一个干扰图片;
将所述参考文章中的匹配图片从所述文本清洗结果中清除。
6.根据权利要求5所述的公众号文章清洗方法,其特征在于,所述将同一所述公众号的参考文章与文本库进行文本匹配,包括:
检索所述参考文章中与所述干扰文本相同的文本;
将检索到的文本确定为所述参考文章的匹配文本。
7.根据权利要求1所述的公众号文章清洗方法,其特征在于,所述参考文章为同一所述公众号的任意一篇文章。
8.一种公众号文章清洗装置,其特征在于,包括:
文本匹配模块,用于将公众号的待清洗文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;所述文本库包括参考文章中已标记的至少一个干扰文本;
文本清洗模块,用于根据所述文本库中与所述待清洗文章相匹配的干扰文本所对应的文本清洗方式,及所述待清洗文章中的匹配文本,对所述待清洗文章进行清洗,得到文本清洗结果;
图片匹配模块,用于将所述文本清洗结果中的图片与图库进行图片相似度匹配,得到所述待清洗文章中的匹配图片;所述图库包括所述参考文章中已标记的至少一个干扰图片;
图片清除模块,用于将所述匹配图片,从所述文本清洗结果中清除;
其中,与所述干扰文本所对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待清洗文章中所述匹配文本所在段落进行删除的方式、对所述待清洗文章中所述匹配文本进行删除的方式或对所述待清洗文章中所述匹配文本之后的段落进行删除的方式。
9.一种公众号文章清洗系统,其特征在于,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的公众号文章清洗方法。
10.一种数据配置方法,其特征在于,所述方法应用于如权利要求8所述的公众号文章清洗装置,所述方法包括:
提供参考文章,并标记所述参考文章中的至少一个干扰文本;
根据所述参考文章中已标记的至少一个干扰文本创建文本库;
为所述至少一个干扰文本配置与所述干扰文本对应的文本清洗方式;
为所述参考文章中的至少一张干扰图片添加标记;
根据所述参考文章中带有标记的至少一张干扰图片创建图库;
其中,与所述干扰文本对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待清洗文章中所述匹配文本所在段落进行删除的方式、对所述待清洗文章中所述匹配文本进行删除的方式或对所述待清洗文章中所述匹配文本之后的段落进行删除的方式。
CN201910047036.8A 2019-01-18 2019-01-18 数据配置方法、公众号文章清洗方法、装置及系统 Pending CN109740101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910047036.8A CN109740101A (zh) 2019-01-18 2019-01-18 数据配置方法、公众号文章清洗方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910047036.8A CN109740101A (zh) 2019-01-18 2019-01-18 数据配置方法、公众号文章清洗方法、装置及系统

Publications (1)

Publication Number Publication Date
CN109740101A true CN109740101A (zh) 2019-05-10

Family

ID=66365307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910047036.8A Pending CN109740101A (zh) 2019-01-18 2019-01-18 数据配置方法、公众号文章清洗方法、装置及系统

Country Status (1)

Country Link
CN (1) CN109740101A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717028A (zh) * 2019-10-18 2020-01-21 支付宝(杭州)信息技术有限公司 一种剔除干扰问题对的方法及系统
CN112115285A (zh) * 2019-06-21 2020-12-22 杭州海康威视数字技术股份有限公司 图片清洗方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650784A (zh) * 2009-09-23 2010-02-17 南京大学 一种利用结构上下文特征进行图像匹配的方法
CN103577537A (zh) * 2013-09-24 2014-02-12 上海交通大学 面向图像分享网站图片的多重配对相似度确定方法
CN103605691A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 用于处理社交网络中发布内容的装置和方法
US20140278378A1 (en) * 2013-03-15 2014-09-18 Joe Mellett Content to test converter system (cttcs)
CN104281679A (zh) * 2014-09-30 2015-01-14 东软集团股份有限公司 基于图像特征的商品分类方法及装置
CN106055722A (zh) * 2016-07-26 2016-10-26 重庆兆光科技股份有限公司 网页爬虫抓取方法及系统
CN106855859A (zh) * 2015-12-08 2017-06-16 北京搜狗科技发展有限公司 一种网页正文提取方法及装置
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
CN107729419A (zh) * 2017-09-27 2018-02-23 惠州Tcl移动通信有限公司 一种智能保存图片和视频的方法、移动终端及存储介质
CN109086361A (zh) * 2018-07-20 2018-12-25 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650784A (zh) * 2009-09-23 2010-02-17 南京大学 一种利用结构上下文特征进行图像匹配的方法
US20140278378A1 (en) * 2013-03-15 2014-09-18 Joe Mellett Content to test converter system (cttcs)
CN103577537A (zh) * 2013-09-24 2014-02-12 上海交通大学 面向图像分享网站图片的多重配对相似度确定方法
CN103605691A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 用于处理社交网络中发布内容的装置和方法
CN104281679A (zh) * 2014-09-30 2015-01-14 东软集团股份有限公司 基于图像特征的商品分类方法及装置
CN106855859A (zh) * 2015-12-08 2017-06-16 北京搜狗科技发展有限公司 一种网页正文提取方法及装置
CN106055722A (zh) * 2016-07-26 2016-10-26 重庆兆光科技股份有限公司 网页爬虫抓取方法及系统
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
CN107729419A (zh) * 2017-09-27 2018-02-23 惠州Tcl移动通信有限公司 一种智能保存图片和视频的方法、移动终端及存储介质
CN109086361A (zh) * 2018-07-20 2018-12-25 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
姬鑫等: "基于分块的新闻网页信息抽取算法", 《计算机应用与软件》 *
胡燕: "基于Web信息抽取的专业知识获取方法研究", 《中国博士学位论文全文数据库信息科技辑》 *
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", 31 August 2018 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115285A (zh) * 2019-06-21 2020-12-22 杭州海康威视数字技术股份有限公司 图片清洗方法及装置
CN110717028A (zh) * 2019-10-18 2020-01-21 支付宝(杭州)信息技术有限公司 一种剔除干扰问题对的方法及系统
CN110717028B (zh) * 2019-10-18 2022-02-15 支付宝(杭州)信息技术有限公司 一种剔除干扰问题对的方法及系统

Similar Documents

Publication Publication Date Title
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN106874279B (zh) 生成应用类别标签的方法及装置
CN112348117B (zh) 场景识别方法、装置、计算机设备和存储介质
CN111009041B (zh) 一种绘画创作方法、装置、终端设备及可读存储介质
WO2018196718A1 (zh) 图像消歧方法、装置、存储介质和电子设备
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
CN109117477B (zh) 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN111241340A (zh) 视频标签确定方法、装置、终端及存储介质
CN110413773A (zh) 智能文本分类方法、装置及计算机可读存储介质
CN111429341B (zh) 一种视频处理方法、设备及计算机可读存储介质
CN109101476A (zh) 一种词向量生成、数据处理方法和装置
CN103345616A (zh) 基于行为分析的指纹存储比对的系统
CN108008942A (zh) 对数据记录进行处理的方法及系统
CN109740101A (zh) 数据配置方法、公众号文章清洗方法、装置及系统
Kil et al. Discovering the unknown knowns: Turning implicit knowledge in the dataset into explicit training examples for visual question answering
Wang et al. Constraint based region matching for image retrieval
CN110490237A (zh) 数据处理方法、装置、存储介质及电子设备
CN106156794B (zh) 基于文字风格识别的文字识别方法及装置
CN114398473A (zh) 企业画像生成方法、装置、服务器及存储介质
Nemade et al. Image segmentation using convolutional neural network for image annotation
US20220284187A1 (en) Language model based writing aid method, device and system
CN110956157A (zh) 基于候选框选择的深度学习遥感影像目标检测方法及装置
Lu et al. Binary partition tree for semantic object extraction and image segmentation
CN103336800A (zh) 基于行为分析的指纹存储比对的方法
CN115357720B (zh) 基于bert的多任务新闻分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190510

RJ01 Rejection of invention patent application after publication