CN103605691B - 用于处理社交网络中发布内容的装置和方法 - Google Patents

用于处理社交网络中发布内容的装置和方法 Download PDF

Info

Publication number
CN103605691B
CN103605691B CN201310537962.6A CN201310537962A CN103605691B CN 103605691 B CN103605691 B CN 103605691B CN 201310537962 A CN201310537962 A CN 201310537962A CN 103605691 B CN103605691 B CN 103605691B
Authority
CN
China
Prior art keywords
text
feature
phonetic
chinese
data storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310537962.6A
Other languages
English (en)
Other versions
CN103605691A (zh
Inventor
孙林
陈培军
秦吉胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310537962.6A priority Critical patent/CN103605691B/zh
Publication of CN103605691A publication Critical patent/CN103605691A/zh
Priority to PCT/CN2014/087175 priority patent/WO2015062377A1/zh
Priority to US15/034,307 priority patent/US20160283582A1/en
Application granted granted Critical
Publication of CN103605691B publication Critical patent/CN103605691B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种处理社交网络中发布内容的装置和方法,其中该方法包括:接收发布者在社交网络中的待发布内容;检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量;根据所述特征向量,识别文本字段是否与广告特征数据库中的一个或多个记录匹配;当识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理。使用本发明的装置和方法,可以由待发布内容中的文本字段提取出特征向量,以及根据特征向量识别文本字段是否与广告特征数据库中的一个或多个记录匹配,从而能够从发布者在社交网络中的待发布内容中识别出广告内容并屏蔽相应的待发布内容。

Description

用于处理社交网络中发布内容的装置和方法
技术领域
本发明涉及计算机网络领域,具体涉及一种处理社交网络中发布内容的装置和方法。
背景技术
随着互联网的发展,各种网络应用,尤其是微博、博客、论坛、朋友圈等社交网络,成为人们获取信息、交流信息的重要渠道。然而在社交网络的发布内容中,存在相当量的广告内容,给用户带来了诸多不便,同时也降低了社交网络的质量。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种处理社交网络中发布内容的装置和相应的一种处理社交网络中发布内容的方法。
依据本发明的一个方面,提供了一种处理社交网络中发布内容的装置,包括:内容获取单元,适于接收发布者在社交网络中的待发布内容;特征向量提取单元,适于检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量;识别单元,适于根据所述特征向量,识别所述文本字段是否与广告特征数据库中的一个或多个记录匹配;屏蔽单元,适于在识别单元识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理。
可选地,所述内容获取单元,适于接收发布者在下述的至少一种社交网络中的待发布内容:微博、博客、论坛、朋友圈。
可选地,所述识别单元,适于对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征;所述识别单元,适于判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述文本字段与广告特征数据库中的记录匹配,否则不匹配。
可选地,所述识别单元,适于对所述特征向量中的每个特征,从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则广告特征数据库中多次出现该特征。
可选地,该装置进一步包括广告特征数据库更新单元,所述广告特征数据库更新单元,适于在确定所述文本字段与广告特征数据库中的记录匹配时,对于所述特征向量中的每个特征,如果检测到广告特征数据库中存在该特征,则将广告特征数据库中该特征的权值加1。
可选地,所述识别单元,适于在对于所述特征向量中的每个特征,检测广告特征数据库中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值,是则所述文本字段与广告特征数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征。
可选地,所述特征向量提取单元包括:中文文本获取子单元,适于对文本字段进行文本处理以获取中文文本;拼音文本获取子单元,适于将获取的中文文本中的汉字转为拼音得到拼音文本;指纹获取子单元,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
可选地,所述中文文本获取子单元,适于对文本字段进行数据清洗操作,将文本字段中的内容转换为规则字符;将拼音转化为汉字;以及将保留常用的汉字。
可选地,所述中文文本获取子单元,适于识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号,以将文本字段中的内容转换为规则字符;所述中文文本获取子单元,适于使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个,以将文本中的拼音转化为汉字;所述中文文本获取子单元,适于使用GBK编码表中的常用汉字对文本字段进行过滤,丢弃所有不属于常用汉字的字符,以保留常用的汉字。
可选地,所述拼音文本获取子单元,适于使用拼音汉字对照表,将每个汉字转换为对应的拼音串,以得到拼音文本。
可选地,所述指纹获取子单元,适于以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。
依据本发明的另一个方面,提供了一种处理社交网络中发布内容的方法,包括:接收发布者在社交网络中的待发布内容;检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量;根据所述特征向量,识别文本字段是否与广告特征数据库中的一个或多个记录匹配;当识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理。
可选地,所述社交网络包括下述的至少一种:微博、博客、论坛、朋友圈。
可选地,所述根据所述特征向量,识别文本字段是否与广告特征数据库中的一个或多个记录匹配,具体包括:对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征;判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述文本字段与广告特征数据库中的记录匹配,否则不匹配。
可选地,所述检测广告特征数据库中是否多次出现该特征包括:从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则广告特征数据库中多次出现该特征。
可选地,在确定所述文本字段与广告特征数据库中的记录匹配时,该方法进一步包括:对于所述特征向量中的每个特征,如果检测到广告特征数据库中存在该特征,则该将广告特征数据库中该特征的权值加1。
可选地,在对于所述特征向量中的每个特征,检测广告特征数据库中是否存在该特征之前,所述判断文本字段是否与广告特征数据库中的记录匹配进一步包括:判断所述特征向量中的特征的数目是否小于第三阈值,是则所述文本字段与广告特征数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征。
可选地,所述提取所述文本字段中包含的一个或多个特征向量,具体包括:对文本字段进行文本处理以获取中文文本;将获取的中文文本中的汉字转为拼音得到拼音文本;提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
可选地,所述对文本字段进行文本处理以获取中文文本,具体包括:对文本字段进行数据清洗操作,将文本字段中的内容转换为规则字符;将拼音转化为汉字;保留常用的汉字。
可选地,所述对文本字段进行数据清洗操作,具体包括:识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号;所述将文本中的拼音转化为汉字,具体包括:使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个;所述保留常用的汉字,具体包括:使用GBK编码表中的常用汉字对文本字段进行过滤,丢弃所有不属于常用汉字的字符。
可选地,所述将获取的中文文本中的汉字转为拼音得到拼音文本,具体包括:使用拼音汉字对照表,将每个汉字转换为对应的拼音串,得到拼音文本。
可选地,所述提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量,具体包括:以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。
根据本发明的处理社交网络中发布内容的装置和方法,可以由发布者在社交网络中的待发布内容得到文本字段,由文本字段提取得到特征向量,进而根据特征向量识别文本字段是否与广告特征数据库中的一个或多个记录匹配,以及识别出上述匹配时将待发布内容作为广告内容进行屏蔽处理,能够有效地从发布者在社交网络中的待发布内容中识别出广告内容并屏蔽相应的待发布内容。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的处理社交网络中发布内容的方法的流程图;
图2示出了提取文本字段中包含的一个或多个特征向量的详细的流程图;
图3示出了如图2所示的步骤S210、步骤S220和步骤S230的详细的流程图;
图4示出了如图1所示的步骤S300的详细的流程图;
图5示出了根据本发明第一实施例的处理社交网络中发布内容的装置的框图;
图6示出了根据本发明第一实施例的处理社交网络中发布内容的装置的详细的框图;以及
图7示出了根据本发明第二实施例的处理社交网络中发布内容的装置的详细的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的处理社交网络中发布内容的方法的流程图。该方法包括以下的步骤S100、S200、S300和S400。
S100、接收发布者在社交网络中的待发布内容。
所述社交网络包括下述的至少一种:微博、博客、论坛、朋友圈。
S200、检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量。本实施例中,可以从发布内容中滤除非文本的内容,筛选得到文本字段。进一步地,可以通过检测断句符号,将文本字段切分为多段文本,进而得到多个特征向量;也可以不切分文本字段,进而得到一个特征向量。
S300、根据所述特征向量,识别文本字段是否与广告特征数据库中的一个或多个记录匹配。
本实施例中,对特征向量中的每一个特征,会检测在一个预设的广告特征数据库中是否多次出现该特征。检测了特征向量中的所有特征之后,判断特征向量中的在广告特征数据库中多次出现的特征占特征向量的全部特征的比例,从而判断文本字段与广告特征数据库中的记录是否匹配。本实施例中预设的广告特征数据库使用Redis广告特征数据库,可以是通过对海量的网络广告文本(例如抓取收集的网络广告等垃圾信息)进行分析得到海量的特征,并统计得到的各个特征的数目而得到权值,令特征(Shingle)和权值(Value)构成广告特征数据库。
S400、当识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理。
本发明的步骤S200和步骤S300,通过与广告特征数据库中的记录进行相似文本监测而识别待发布内容中的广告。不同于本发明步骤S200和步骤S300的一种相似文本检测方法为:首先提取文本的特征(例如对文本进行分词,提取实体词)并使用各种技术对特征进行扩展(例如使用同义词词林,近义词词典等知识库进行词汇扩展),并使用VSM模型来描述文本(例如使用VSM模型将一篇文本表示为一个向量),然后使用聚类方法对文本进行聚类(例如对于两篇文本,经过向量化表示后,计算两个向量的余弦夹角用于表征两篇文本的相似性,如果相似度大于一定阈值,则认为两篇文本是相似的),被聚到一起的文本是相似的。
然而,在网络应用中,存在着大量的相似文本的变种,如使用繁体字、适用拼音代替文字、用同音字代替原字、加入大量无意义的干扰字符,等等,上述技术存在以下缺点:(一)分词结果存在误差;(二)同音不同字的文本无法判断为相似;(三)无法将经过拼音化处理的两篇文本识别为相似文本;(四)对文本的计算复杂度太高(例如,将文本表示为向量,需要较大的运算量)。因此,这种方法无法满足当前大数据量情况下的运算实时性要求。
图2示出了提取文本字段中包含的一个或多个特征向量的详细的流程图。该方法包括以下的步骤S210、S220和S230。
S210、对文本字段进行文本处理以获取中文文本。
通过由文本字段获取中文文本,可以消除包括有无意义的干扰字符、繁体字等相似文本的变种对本实施例的影响。
S220、将获取的中文文本中的汉字转为拼音得到拼音文本。
通过将中文文本中的汉字统一转化为拼音,可以消除用拼音代替文字、用同音字代替原字等相似文本的变种对本实施例的识别效果的影响。
S230、提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
本实施例中,可以采用N元语言模型(N-gram)提起拼音文本的特征向量,基于步骤S210获取的中文文本中的汉字粒度,对步骤S220获取的拼音文本提取N-gram特征SHINGLE1、SHINGLE2、…SHINGLEm。例如,如果步骤S210获取的中文文本为“我爱北京天安门”,汉字粒度为“我”、“爱”、“北”、“京”、“天”,“安”,“门”,步骤S220获取的拼音文本为“woai bei jing tian an men”,那么拼音串被切分为“wo”、“ai”、“bei”、“jing”、“tian”、“an”、“men”,如果令N=6则步骤S230中,获取的N-gram特征SHINGLE1为“wo ai bei jingtian an”、SHINGLE2为“ai bei jing tian an men”,依次类推。并使用向量空间模型(VSM,Vector Space Model)形成特征向量D=<SHINGLE1,SHINGLE2,…,SHINGLEm>。
图3示出了如图2所示的步骤S210、步骤S220和步骤S230的详细的流程图。步骤S210具体包括:
S211、对文本字段进行数据清洗操作,将文本字段中的内容转换为规则字符。
其中,对文本字段进行数据清洗操作,具体包括:识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号。
S212、将拼音转化为汉字。
其中,将经过步骤S211处理的文本中的拼音转化为汉字,具体包括:使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个。
S213、保留常用的汉字。
其中,保留常用的汉字,具体包括:使用GBK编码表中的常用汉字对文本进行过滤,丢弃所有不属于常用汉字的字符,即只保留汉字GBK编码在0xB0A0~0xF7FE中的汉字。
步骤S220具体包括:使用拼音汉字对照表,将每个汉字转换为对应的拼音串,得到拼音文本。
通过步骤S210由文本字段获取中文文本,以及通过步骤S220将获取的中文文本中的汉字转为拼音得到拼音文本,可以将相似文本的不同变种,识别为相同的拼音文本。例如将如表1所示的文本字段和三种变种,通过步骤S210和S220得到相同的拼音文本。
表1文本字段及三种变种
使用本发明的步骤S210和步骤S220分别处理上述的原文和三种变种,可以得到相同的拼音文本:“tian mao shou ye zhan tie dao liu lan qi fang wen tian mao chaoshi zhan tie dao liu lan qi fang wen”。以变种3为例:经步骤S110进行数据清洗后的文本为:“1x3f天緢首页粘贴到刘揽器访问tfa天mao超市粘贴到刘揽器访问sdjh”拼音转汉字,经步骤S212将拼音转化为汉字后的结果为:“1x3f天緢首页粘贴到刘揽器访问tfa天猫超市粘贴到刘揽器访问sdjh”,其中“1x3f”、“tfa”和“sdjh”由于不在拼音词典里,因此不做处理,“mao”在拼音词典里,因此随机选择一个汉字“猫”用来替代它;经步骤S213保留常用的汉字,结果为:“天緢首页粘贴到刘揽器访问天猫超市粘贴到刘揽器访问”,进一步使用拼音汉字对照表,将每个汉字转换为对应的拼音,则得到上述拼音文本。原文、变种1和变种2也可以得到相同的拼音文本。
当N=6时,经步骤S230得到的特征向量为<tian mao shou ye zhan tie,mao shouye zhan tie dao,shou ye zhan tie dao liu,ye zhan tie dao liu lan,zhan tie daoliu lan qi,tie dao liu lan qi fang,dao liu lan qi fang wen,liu lan qi fangwen tan,lan qi fang wen tan mao,qi fang wen tan mao chao,fang wen tan maochao shi,wen tan mao chao shi zhan,tan mao chao shi zhan tie,mao chao shizhan tie dao,chao shi zhan tie dao liu,shi zhan tie dao liu lan,zhan tie daoliu lan qi,tie dao liu lan qi fang,dao liu lan qi fang wen>。
图4示出了图1中步骤S300的详细的流程图。对由上述步骤S200获取的特征向量,步骤S300具体包括以下步骤:
S310、判断特征向量中的特征的数目K是否小于第三阈值T3,是则执行步骤S390,否则执行步骤S320。这一步操作的优点至少有两点,首先,在实际的社交网络中广告消息的长度往往不会太短,而社交网络中相当量的文本字段是长度很小的文本(例如不多于五至七个汉字)因此通过这一步判断,使得对由文本长度小(获取的特征的数目小于预设的阈值)的文本提取的特征向量不再进行步骤S320-S370的判断,降低了本实施例方法的运算量;再者,文本的文本长度短则特征数目少,根据后续的步骤S370可知,对于并不是广告的待发布内容而言,存在因为由文本字段提取得到的个别特征在广告特征数据库中出现而被误判为与广告特征数据库中的记录匹配的概率,通过步骤S310,避免了这一误判。
S320、选取特征向量中的一个未与广告特征数据库中的记录进行比较的特征(Shingle)。
S330、判断广告特征数据库中是否存在步骤S320中获取的特征,若是则执行步骤S340,否则执行步骤S360。
S340、判断广告特征数据库中该特征的权值是否大于或等于第二阈值T2,若是则执行步骤S350,否则执行步骤S360。
S350、判断广告特征数据库中多次出现该特征,并执行步骤S360。由于步骤S340中已经判定权值大于或等于第二阈值T2,所以步骤S350中判断广告特征数据库中多次出现该特征。
S360、判断特征向量中的全部特征,是否已经与广告特征数据库中的记录进行比较,若是则执行步骤S370,否则返回执行步骤S320,读取一个未与广告特征数据库中的记录进行比较的特征,则对特征向量的每一个特征,都会执行步骤S330。
S370、判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值T1,是则执行步骤S380,否则执行步骤S390。本实施例中,通过判断一个特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例,反映待检测的文本与广告特征数据库中的记录是否匹配。由上可知,本实施例采用的运算方法均属于简单的文本变换操作和简单的数据比较操作,运算量与文本长度之间的关系大致是一次线性关系,运算开销小。
S380、确定文本字段与广告特征数据库中的记录匹配并结束判断操作。
S390、确定文本字段与广告特征数据库中的记录不匹配并结束判断操作。
较佳地,在步骤S380中确定文本字段与广告特征数据库中的记录匹配时,本实施例的方法进一步包括:对于所述特征向量中的每个特征,如果检测到广告特征数据库中存在该特征,则该将广告特征数据库中该特征的权值加1。换言之,如果文本字段与广告特征数据库中的记录匹配,则更新广告特征数据库Redis,从而在使用本发明的方法的同时,实现对广告特征数据库的更新。
继续以由表1中的文本字段获取的特征向量为例,当N=6时,经步骤S200得到的特征向量为<tian mao shou ye zhan tie,mao shou ye zhan tie dao,shou ye zhan tiedao liu,ye zhan tie dao liu lan,zhan tie dao liu lan qi,tie dao liu lan qifang,dao liu lan qi fang wen,liu lan qi fang wen tan,lan qi fang wen tan mao,qi fang wen tan mao chao,fang wen tan mao chao shi,wen tan mao chao shi zhan,tan mao chao shi zhan tie,mao chao shi zhan tie dao,chao shi zhan tie daoliu,shi zhan tie dao liu lan,zhan tie dao liu lan qi,tie dao liu lan qi fang,dao liu lan qi fang wen>。首先通过步骤S310,判断特征向量中的特征的数目K=24是否小于第三阈值T3,假定第三阈值T3=10,则K〉T3,进一步通过步骤S420,选取一个未与广告特征数据库中的记录进行比较的特征,例如“tianmao shou ye zhan tie”,通过步骤S330,判断广告特征数据库中是否存在这个特征,若判断为否,则通过步骤S360返回步骤S320选取另一个特征,若步骤S330的判断为是,则通过步骤S340,判断广告特征数据库中该特征的权值Value是否大于或等于第二阈值T2,假定权值Value=6,第二阈值T2=2,则通过步骤S350判断广告特征数据库中多次出现该特征,较佳地,可以通过多种方式例如对特征进行标记或者通过表格记录该特征以记录这一步骤的操作结果。当对24个特征都进行了判断(至少经过步骤S320和步骤S330),则执行步骤S370,判断在广告特征数据库中多次出现的特征占上述24个特征的比例是否达到第一阈值T1,假定在广告特征数据库中多次出现的特征为12个,则占上述24个特征的比例是50%,假定第一阈值T1为30%,则确定文本字段与广告特征数据库中的记录匹配并结束判断操作。
图5示出了根据本发明第一实施例的处理社交网络中发布内容的装置的框图。该装置包括内容获取单元100、特征向量提取单元200、识别单元300、屏蔽单元400,以及广告特征数据库500。
内容获取单元100,适于接收发布者在社交网络中的待发布内容。
所述内容获取单元,适于接收发布者在下述的至少一种社交网络中的待发布内容:微博、博客、论坛、朋友圈。
特征向量提取单元200,适于检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量。本实施例中,特征向量提取单元200可以从发布内容中滤除图片、视频等非文本的内容,筛选得到文本字段。进一步地,特征向量提取单元200可以通过检测断句符号,将文本字段切分为多段文本,进而得到多个特征向量;也可以不切分文本字段,进而得到一个特征向量。
识别单元300,适于根据所述特征向量,识别所述文本字段是否与广告特征数据库500中的一个或多个记录匹配。
本实施例中的广告特征数据库500使用Redis广告特征数据库,可以是通过对海量的网络文本(例如抓取收集的网络广告等垃圾信息)进行分析得到海量的特征,并统计得到的各个特征的数目而得到权值,令特征(Shingle)和权值(Value)构成广告特征数据库。
具体地,识别单元300,适于对所述特征向量中的每个特征,检测广告特征数据库500中是否多次出现该特征。具体地,识别单元300,适于对所述特征向量中的每个特征,从广告特征数据库500中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于预设的第二阈值T2,则判断广告特征数据库500中多次出现该特征。
识别单元300,进一步适于判断所述特征向量中的在广告特征数据库500中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值T1,是则确定文本字段与广告特征数据库500中的记录匹配,否则不匹配。
进一步地,识别单元300,适于在对于所述特征向量中的每个特征,检测广告特征数据库500中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值T3,是则所述文本字段与广告特征数据库500中的记录不匹配并结束判断操作,否则进一步对于所述特征向量中的每个特征,检测广告特征数据库500中是否多次出现该特征。
屏蔽单元400,适于在识别单元300识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理。
图6示出了根据本发明第一实施例的处理社交网络中发布内容的装置的详细的框图。其中,特征向量提取单元200,具体包括中文文本获取子单元210、拼音文本获取子单元220和指纹获取子单元230。
其中,中文文本获取子单元210,适于对文本字段进行文本处理以获取中文文本。
更具体地,中文文本获取子单元210,适于对文本字段进行数据清洗操作,数据清洗操作包括识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号,以将文本中的内容转换为规则字符将文本中的内容转换为规则字符;中文文本获取子单元210,进一步适于将拼音转化为汉字,包括使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个,以将文本中的拼音转化为汉字;中文文本获取子单元210,进一步适于保留常用的汉字,包括使用GBK编码表中的常用汉字对文本进行过滤,丢弃所有不属于常用汉字的字符,即只保留汉字GBK编码在0xB0A0~0xF7FE中的汉字,以保留常用的汉字。
拼音文本获取子单元220,适于将获取的中文文本中的汉字转为拼音得到拼音文本,包括使用拼音汉字对照表,将每个汉字转换为对应的拼音串,以得到拼音文本。
通过中文文本获取子单元210由文本字段获取中文文本,以及通过拼音文本获取子单元220将获取的中文文本中的汉字转为拼音得到拼音文本,可以将相似文本的不同变种,识别为相同的拼音文本。
指纹获取子单元230,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量,具体地,指纹获取子单元230,适于以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。较佳地,指纹获取子单元230采用N元语言模型(N-gram)提起拼音文本的特征向量,基于中文文本获取子单元210获取的中文文本中的汉字粒度,对拼音文本获取子单元220获取的拼音文本提取N-gram特征SHINGLE1、SHINGLE2、…SHINGLEm。并使用向量空间模型形成特征向量D=<SHINGLE1,SHINGLE2,…,SHINGLEm>。
图7示出了根据本发明第二实施例的处理社交网络中发布内容的装置的详细的框图。该装置的第二实施例与如图6所示的第一实施例大致相同,不同之处在于,该装置进一步包括广告特征数据库更新单元600。
所述广告特征数据库更新单元600,适于在确定文本字段与广告特征数据库500中的记录匹配时,对于所述特征向量中的每个特征,如果检测到广告特征数据库500中存在该特征,则将广告特征数据库500中该特征的权值加1。换言之,如果文本字段与广告特征数据库中的记录匹配,则更新广告特征数据库500,从而实现对广告特征数据库500的更新。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的处理社交网络中发布内容的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (18)

1.一种处理社交网络中发布内容的装置,包括:
内容获取单元,适于接收发布者在社交网络中的待发布内容;
特征向量提取单元,适于检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量;其中,通过检测断句符号,将所述文本字段切分为多段文本,进而得到多个特征向量;或者不切分所述文本字段,进而得到一个特征向量;
识别单元,适于根据所述特征向量,识别所述文本字段是否与广告特征数据库中的一个或多个记录匹配;
屏蔽单元,适于在识别单元识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理;
其中,所述特征向量提取单元包括:中文文本获取子单元,适于对文本字段进行文本处理以获取中文文本;
所述中文文本获取子单元,适于对文本字段进行数据清洗操作,将文本字段中的内容转换为规则字符;将拼音转化为汉字;以及将保留常用的汉字;
所述中文文本获取子单元,适于识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号,以将文本字段中的内容转换为规则字符;所述中文文本获取子单元,适于使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个,以将文本中的拼音转化为汉字;所述中文文本获取子单元,适于使用GBK编码表中的常用汉字对文本字段进行过滤,丢弃所有不属于常用汉字的字符,以保留常用的汉字。
2.根据权利要求1所述的装置,其中,
所述内容获取单元,适于接收发布者在下述的至少一种社交网络中的待发布内容:微博、博客、论坛、朋友圈。
3.根据权利要求1或2所述的装置,其中,
所述识别单元,适于对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征;
所述识别单元,适于判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述文本字段与广告特征数据库中的记录匹配,否则不匹配。
4.根据权利要求3所述的装置,其中,
所述识别单元,适于对所述特征向量中的每个特征,从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则广告特征数据库中多次出现该特征。
5.根据权利要求3所述的装置,其中,该装置进一步包括广告特征数据库更新单元,
所述广告特征数据库更新单元,适于在确定所述文本字段与广告特征数据库中的记录匹配时,对于所述特征向量中的每个特征,如果检测到广告特征数据库中存在该特征,则将广告特征数据库中该特征的权值加1。
6.根据权利要求3所述的装置,其中,所述识别单元,适于在对于所述特征向量中的每个特征,检测广告特征数据库中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值,是则所述文本字段与广告特征数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征。
7.根据权利要求1所述的装置,其中,所述特征向量提取单元还包括:拼音文本获取子单元,适于将获取的中文文本中的汉字转为拼音得到拼音文本;指纹获取子单元,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
8.根据权利要求7所述的装置,其中,所述拼音文本获取子单元,适于使用拼音汉字对照表,将每个汉字转换为对应的拼音串,以得到拼音文本。
9.根据权利要求7所述的装置,其中,所述指纹获取子单元,适于以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。
10.一种处理社交网络中发布内容的方法,包括:
接收发布者在社交网络中的待发布内容;
检测所述待发布内容中的文本字段,提取所述文本字段中包含的一个或多个特征向量;其中,通过检测断句符号,将所述文本字段切分为多段文本,进而得到多个特征向量;或者不切分所述文本字段,进而得到一个特征向量;
根据所述特征向量,识别文本字段是否与广告特征数据库中的一个或多个记录匹配;
当识别出上述匹配时,将所述待发布内容作为广告内容进行屏蔽处理;
所述提取所述文本字段中包含的一个或多个特征向量,具体包括:对文本字段进行文本处理以获取中文文本;
所述对文本字段进行文本处理以获取中文文本,具体包括:对文本字段进行数据清洗操作,将文本字段中的内容转换为规则字符;将拼音转化为汉字;保留常用的汉字;
所述对文本字段进行数据清洗操作,具体包括:识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号;
所述将文本中的拼音转化为汉字,具体包括:使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个;
所述保留常用的汉字,具体包括:使用GBK编码表中的常用汉字对文本字段进行过滤,丢弃所有不属于常用汉字的字符。
11.根据权利要求10所述的方法,其中,
所述社交网络包括下述的至少一种:微博、博客、论坛、朋友圈。
12.根据权利要求10或11所述的方法,其中,所述根据所述特征向量,识别文本字段是否与广告特征数据库中的一个或多个记录匹配,具体包括:
对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征;
判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述文本字段与广告特征数据库中的记录匹配,否则不匹配。
13.根据权利要求12所述的方法,其中,所述检测广告特征数据库中是否多次出现该特征包括:
从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则广告特征数据库中多次出现该特征。
14.根据权利要求12所述的方法,其中,在确定所述文本字段与广告特征数据库中的记录匹配时,该方法进一步包括:
对于所述特征向量中的每个特征,如果检测到广告特征数据库中存在该特征,则该将广告特征数据库中该特征的权值加1。
15.根据权利要求12所述的方法,其中,
在对于所述特征向量中的每个特征,检测广告特征数据库中是否存在该特征之前,所述判断文本字段是否与广告特征数据库中的记录匹配进一步包括:判断所述特征向量中的特征的数目是否小于第三阈值,是则所述文本字段与广告特征数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征。
16.根据权利要求10所述的方法,其中,
所述提取所述文本字段中包含的一个或多个特征向量,具体还包括:将获取的中文文本中的汉字转为拼音得到拼音文本;提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
17.根据权利要求16所述的方法,其中,
所述将获取的中文文本中的汉字转为拼音得到拼音文本,具体包括:使用拼音汉字对照表,将每个汉字转换为对应的拼音串,得到拼音文本。
18.根据权利要求16所述的方法,其中,
所述提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量,具体包括:以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。
CN201310537962.6A 2013-11-04 2013-11-04 用于处理社交网络中发布内容的装置和方法 Expired - Fee Related CN103605691B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310537962.6A CN103605691B (zh) 2013-11-04 2013-11-04 用于处理社交网络中发布内容的装置和方法
PCT/CN2014/087175 WO2015062377A1 (zh) 2013-11-04 2014-09-23 一种相似文本检测装置、方法以及应用
US15/034,307 US20160283582A1 (en) 2013-11-04 2014-09-23 Device and method for detecting similar text, and application

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310537962.6A CN103605691B (zh) 2013-11-04 2013-11-04 用于处理社交网络中发布内容的装置和方法

Publications (2)

Publication Number Publication Date
CN103605691A CN103605691A (zh) 2014-02-26
CN103605691B true CN103605691B (zh) 2017-04-26

Family

ID=50123914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310537962.6A Expired - Fee Related CN103605691B (zh) 2013-11-04 2013-11-04 用于处理社交网络中发布内容的装置和方法

Country Status (1)

Country Link
CN (1) CN103605691B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015062377A1 (zh) * 2013-11-04 2015-05-07 北京奇虎科技有限公司 一种相似文本检测装置、方法以及应用
CN106682010A (zh) * 2015-11-06 2017-05-17 北京奇虎科技有限公司 朋友圈信息分类方法、装置和服务器
CN107193796B (zh) * 2016-03-14 2021-12-24 北大方正集团有限公司 一种舆情事件检测方法及装置
CN106250482A (zh) * 2016-07-29 2016-12-21 宇龙计算机通信科技(深圳)有限公司 屏蔽广告信息的方法、装置和系统
CN106504101A (zh) * 2016-10-11 2017-03-15 北京小米移动软件有限公司 社交应用的发布信息的显示控制方法及装置
CN107943811B (zh) * 2016-12-22 2021-04-09 腾讯科技(北京)有限公司 内容的发布方法和装置
WO2018209521A1 (zh) * 2017-05-15 2018-11-22 深圳市永恒丰科技有限公司 社交系统、社交系统信息控制的方法、第一智能终端
CN107666435A (zh) * 2017-11-15 2018-02-06 珠海市魅族科技有限公司 一种屏蔽消息的方法及装置
CN109740101A (zh) * 2019-01-18 2019-05-10 杭州凡闻科技有限公司 数据配置方法、公众号文章清洗方法、装置及系统
CN110598211B (zh) * 2019-09-02 2023-09-26 腾讯科技(深圳)有限公司 文章的识别方法和装置、存储介质及电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN102419777A (zh) * 2012-01-10 2012-04-18 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤系统及其过滤方法
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤系统及其过滤方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN102419777A (zh) * 2012-01-10 2012-04-18 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤系统及其过滤方法
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤系统及其过滤方法

Also Published As

Publication number Publication date
CN103605691A (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
CN103605691B (zh) 用于处理社交网络中发布内容的装置和方法
Saloot et al. Hadith data mining and classification: a comparative analysis
Raj et al. An application to detect cyberbullying using machine learning and deep learning techniques
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110347894A (zh) 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
CN108984500A (zh) 金额信息的提取方法、终端设备及介质
CN108228758A (zh) 一种文本分类方法及装置
CN103605694A (zh) 一种相似文本检测装置和方法
CN103605690A (zh) 一种即时通信中识别广告消息的装置和方法
CN106445906A (zh) 领域词典中中长词词组的生成方法及装置
CN110427628A (zh) 基于神经网络算法的web资产分类检测方法及装置
CN111666766A (zh) 数据处理方法、装置和设备
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN111639250A (zh) 企业描述信息获取方法、装置、电子设备及存储介质
US20160283582A1 (en) Device and method for detecting similar text, and application
CN110688455A (zh) 基于人工智能过滤无效评论的方法、介质及计算机设备
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
Wong et al. iSentenizer‐μ: Multilingual Sentence Boundary Detection Model
CN114090793A (zh) 信息抽取方法、装置、电子设备及计算机可读介质及产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170426

Termination date: 20211104

CF01 Termination of patent right due to non-payment of annual fee