CN107562759B - 一种处理信息源的方法、装置及电子设备 - Google Patents

一种处理信息源的方法、装置及电子设备 Download PDF

Info

Publication number
CN107562759B
CN107562759B CN201610513038.8A CN201610513038A CN107562759B CN 107562759 B CN107562759 B CN 107562759B CN 201610513038 A CN201610513038 A CN 201610513038A CN 107562759 B CN107562759 B CN 107562759B
Authority
CN
China
Prior art keywords
information
garbage
judgment
marking
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610513038.8A
Other languages
English (en)
Other versions
CN107562759A (zh
Inventor
高飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201610513038.8A priority Critical patent/CN107562759B/zh
Publication of CN107562759A publication Critical patent/CN107562759A/zh
Application granted granted Critical
Publication of CN107562759B publication Critical patent/CN107562759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的实施例公开一种处理信息源的方法、装置及电子设备,涉及信息处理技术,能够提升信息源质量。包括:按照预设的隔断策略对待推送信息源设置隔断标识;提取预设的垃圾组合判断策略集中的任意两种以上垃圾判断策略;遍历待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;依据所述相邻两隔断标识包含的信息数,构建基于提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;若计算的文本垃圾密度大于预设的垃圾密度阈值,删除计算的文本垃圾密度对应的相邻两隔断标识之间的信息。适用于对信息进行预处理。

Description

一种处理信息源的方法、装置及电子设备
技术领域
本发明涉及信息处理技术,尤其涉及一种处理信息源的方法、装置及电子设备。
背景技术
随着计算机通信以及互联网技术的不断发展,电子设备,例如,智能移动电话、个人数字助理、掌上电脑、笔记本电脑等应用越来越广泛,同时,电子设备中安装的应用程序(APP,Application)也越来越多,例如,通讯类应用程序(浏览器)、游戏类应用程序、娱乐类应用程序、社交类应用程序(QQ、微信等)、实用生活类应用程序(淘宝、京东、天猫等)等,应用程序提供的应用功能(增值业务)也越来越丰富。其中,一些应用程序具有用户行为特征统计记录功能,并将记录的用户行为特征上报至相应服务器,使得相应服务器可以基于用户的上网浏览的网页等行为特征,定期或不定期向用户推送与用户行为特征相关联的信息源。
目前,由于推送信息源的服务器数量众多,推送的信息源种类繁多,一些推送的信息源的质量得不到有效保障,例如,一些服务器为了推广增值业务信息或推广恶意网站,会在推送的原始信息源中添加增值业务信息或恶意网站等信息,使之随同推送的信息源进行展示或转载等,但这些添加的信息相对于用户来说是无用信息,不仅浪费用户的浏览时间,也影响用户缓存信息的缓存速度,使得推送给用户的信息源质量较低,影响用户的浏览体验,使得用户的浏览体验感较差;而且,推送的信息源会消耗用户的流量资源,而流量资源需要用户付费,从而增加了用户的成本。
发明内容
有鉴于此,本发明实施例提供一种处理信息源的方法、装置及电子设备,能够提升推送的信息源质量,以解决现有的处理信息源的方法中,在推送的信息源中添加信息导致推送的信息源质量较低的问题。
第一方面,本发明实施例提供一种处理信息源的方法,包括:
按照预先设置的隔断策略对待推送信息源设置隔断标识;
提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;
遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;
依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;
如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。
结合第一方面,在第一方面的第一种实施方式中,在所述按照预先设置的隔断策略对待推送信息源设置隔断标识之前,所述方法还包括:
获取所述待推送信息源中的段落分隔符,删除所述段落分隔符之外的信息。
结合第一方面,在第一方面的第二种实施方式中,所述遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记包括:
读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记;
按照提取的第二垃圾判断策略,对所述相邻两隔断标识之间的一信息再次进行垃圾信息判断,并进行第二垃圾判断策略标记;
判断所述待推送信息源相邻两隔断标识之间的信息是否读取完毕,如果是,结束流程,如果否,读取所述待推送信息源相邻两隔断标识之间未被读取的一信息,执行所述按照提取的第一垃圾判断策略的步骤
结合第一方面的第二种实施方式,在第一方面的第三种实施方式中,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:
提取读取的信息中包含的关键字词;
将提取的关键字词与预先设置的垃圾字词库进行匹配,如果相匹配,标记所述读取的信息为垃圾信息,如果不相匹配,标记所述读取的信息为非垃圾信息,所述标记映射关键字匹配策略。
结合第一方面的第二种实施方式,在第一方面的第四种实施方式中,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:
获取读取的信息中的语句的词语关系;
对获取的词语关系进行贝叶斯过滤,如果过滤结果表明为垃圾,标记所述读取的信息为垃圾信息,如果过滤结果表明为非垃圾,标记所述读取的信息为非垃圾信息,所述标记映射贝叶斯过滤策略。
结合第一方面的第二种实施方式,在第一方面的第五种实施方式中,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:
获取读取的信息对应的初始消息摘要算法第五版值;
对所述读取的信息进行消息摘要算法第五版值计算,得到当前消息摘要算法第五版值;
如果初始消息摘要算法第五版值与当前消息摘要算法第五版值不相同,标记所述读取的信息为垃圾信息,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值相同,标记所述读取的信息为非垃圾信息,所述标记映射消息摘要算法第五版策略。
结合第一方面、第一方面的第一种至第五种中任一种实施方式,在第一方面的第六种实施方式中,所述依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量包括:
依次以隔断包含的每一信息为一行,以每一垃圾判断策略为一列构建所述数组向量;
将每一垃圾判断策略为每一所述读取的信息标记的数值写入所述数组向量相应的行列中。
结合第一方面的第六种实施方式,在第一方面的第七种实施方式中,所述依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度包括:
统计一行中标记为垃圾信息的总列数;
将统计得到的总列数除以所述数组向量的总行数,得到该行的文本垃圾密度。
第二方面,本发明实施例提供一种处理信息源的装置,包括:隔断模块、策略提取模块、标记模块、文本垃圾密度计算模块以及文本垃圾处理模块,其中,
隔断模块,用于按照预先设置的隔断策略对待推送信息源设置隔断标识;
策略提取模块,用于提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;
标记模块,用于遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;
文本垃圾密度计算模块,用于依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;
文本垃圾处理模块,如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。
结合第二方面,在第二方面的第一种实施方式中,所述装置还包括:
段落分隔符处理模块,用于获取所述待推送信息源中的段落分隔符,删除所述段落分隔符之外的信息。
结合第二方面,在第二方面的第二种实施方式中,所述标记模块包括:隔断信息第一标记单元、隔断信息第二标记单元以及第一判断单元,其中,
隔断信息第一标记单元,用于读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记;
隔断信息第二标记单元,用于按照提取的第二垃圾判断策略,对所述相邻两隔断标识之间的一信息再次进行垃圾信息判断,并进行第二垃圾判断策略标记;
第一判断单元,用于判断所述待推送信息源相邻两隔断标识之间的信息是否读取完毕,如果是,结束流程,如果否,读取所述待推送信息源相邻两隔断标识之间未被读取的一信息,执行所述按照提取的第一垃圾判断策略的步骤。
结合第二方面的第二种实施方式,在第二方面的第三种实施方式中,所述隔断信息第一标记单元包括:关键字词提取子单元以及关键字词匹配子单元,其中,
关键字词提取子单元,用于提取读取的信息中包含的关键字词;
关键字词匹配子单元,用于将提取的关键字词与预先设置的垃圾字词库进行匹配,如果相匹配,标记所述读取的信息为垃圾信息,如果不相匹配,标记所述读取的信息为非垃圾信息,所述标记映射关键字匹配策略。
结合第二方面的第二种实施方式,在第二方面的第四种实施方式中,所述标记模块包括:词语关系获取单元以及贝叶斯过滤单元,其中,
词语关系获取单元,用于获取读取的信息中的语句的词语关系;
贝叶斯过滤单元,用于对获取的词语关系进行贝叶斯过滤,如果过滤结果表明为垃圾,标记所述读取的信息为垃圾信息,如果过滤结果表明为非垃圾,标记所述读取的信息为非垃圾信息,所述标记映射贝叶斯过滤策略。
结合第二方面的第二种实施方式,在第二方面的第五种实施方式中,所述标记模块包括:第一消息摘要读取单元、第二消息摘要计算单元以及消息摘要处理单元,其中,
第一消息摘要读取单元,用于获取读取的信息对应的初始消息摘要算法第五版值;
第二消息摘要计算单元,用于对所述读取的信息进行消息摘要算法第五版值计算,得到当前消息摘要算法第五版值;
消息摘要处理单元,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值不相同,标记所述读取的信息为垃圾信息,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值相同,标记所述读取的信息为非垃圾信息,所述标记映射消息摘要算法第五版策略。
结合第二方面、第二方面的第一种至第五种中任一种实施方式,在第二方面的第六种实施方式中,所述文本垃圾密度计算模块包括:向量构建单元、向量写入单元以及文本垃圾密度计算单元,其中,
向量构建单元,用于依次以隔断包含的每一信息为一行,以每一垃圾判断策略为一列构建所述数组向量;
向量写入单元,用于将每一垃圾判断策略为每一所述读取的信息标记的数值写入所述数组向量相应的行列中;
文本垃圾密度计算单元,用于依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度。
结合第二方面的第六种实施方式,在第二方面的第七种实施方式中,所述文本垃圾密度计算单元包括:列数统计子单元以及文本垃圾密度计算子单元,其中,
列数统计子单元,用于统计一行中标记为垃圾信息的总列数;
文本垃圾密度计算子单元,用于将统计得到的总列数除以所述数组向量的总行数,得到该行的文本垃圾密度。
第三方面,本发明实施例提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一所述的处理信息源的方法。
本发明实施例提供的一种处理信息源的方法、装置及电子设备,通过按照预先设置的隔断策略对待推送信息源设置隔断标识;提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息,能够提升推送的信息源质量,以解决现有的处理信息源的方法中,在推送的信息源中添加信息导致推送的信息源质量较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的实施例一处理信息源的方法流程示意图;
图2为本发明的实施例二处理信息源的装置结构示意图;
图3为本发明电子设备一个实施例的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明的实施例一处理信息源的方法流程示意图,如图1所示,本实施例的方法可以包括:
步骤101,按照预先设置的隔断策略对待推送信息源设置隔断标识;
本实施例中,作为一可选实施例,预先设置的隔断策略包括:句隔断以及段落隔断。例如,对于待推送信息源包含有较多段落,而每一段落包含的文本数或句子数较少的情形,可以采用段落隔断,即每一段落对应一隔断,在段落首或段落为设置隔断标识,两隔断标识之间的内容为一段落,以段落为后续处理的单位;如果待推送信息源包含的段落数较少,而每一段落包含的文本数或句子数较多的情形,可以采用句隔断,即每一句对应一隔断,以句为后续处理的单位;如果待推送信息源包含的段落数以及每一段落包含的文本数或句子数介于上述两者之间,既可以采用句隔断,也可以采用段落隔断,本实施例对此不作限定。
本实施例中,作为一可选实施例,在所述按照预先设置的隔断策略对待推送信息源设置隔断标识之前,该方法还包括:
获取所述待推送信息源中的段落分隔符,删除所述段落分隔符之外的信息。
本实施例中,待推送信息源种,如果包含有作者姓名、作者单位、作者简介、信息源资助方信息等段落分隔符之外的信息,用户一般不会关注该类信息,浏览并阅读该类信息的概率较低,可以将该类信息标记为垃圾信息并删除该类信息。
本实施例中,作为一可选实施例,待推送信息源包括:文本、和/或,图片。
步骤102,提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;
本实施例中,作为一可选实施例,垃圾组合判断策略集包括:关键字匹配策略、贝叶斯过滤(Bayesian Filter)策略以及消息摘要算法第五版(MD5,MessageDigestAlgorithm)策略。
本实施例中,作为一可选实施例,提取垃圾组合判断策略集中的任意两种以上垃圾判断策略,包括:关键字匹配策略和贝叶斯过滤策略、或者,贝叶斯过滤策略和消息摘要算法第五版策略、或者,关键字匹配策略和消息摘要算法第五版策略、或者,关键字匹配策略,贝叶斯过滤策略和消息摘要算法第五版策略。
步骤103,遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;
本实施例中,作为一可选实施例,遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记包括:
A11,读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记;
本实施例中,作为一可选实施例,如果经过第一垃圾判断策略判断,确定读取的信息为垃圾信息,可以为该信息设置为-1,并映射为第一垃圾判断策略标记;如果确定读取的信息不为垃圾信息,可以为该信息设置为0,并映射为第一垃圾判断策略标记。
本实施例中,作为一可选实施例,读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:
B11,提取读取的信息中包含的关键字词;
B12,将提取的关键字词与预先设置的垃圾字词库进行匹配,如果相匹配,标记所述读取的信息为垃圾信息,如果不相匹配,标记所述读取的信息为非垃圾信息,所述标记映射关键字匹配策略。
本实施例中,提取读取的信息中包含的关键字词,与垃圾字词库进行关键字词匹配,如果提取的一个或多个关键字词与垃圾字词库中的一个或多个垃圾字词相匹配时,标记所述读取的信息为-1。其中,能够与垃圾字词库中的垃圾字词相匹配的关键字词个数,可以少于或等于提取的关键字词个数。
本实施例中,作为一可选实施例,在所述如果相匹配之后,标记所述读取的信息为垃圾信息之前,该方法还可以包括:
统计匹配的关键字词的次数,如果统计的次数超过预先设置的次数阈值,执行所述标记所述读取的信息为垃圾信息的步骤。
本实施例中,作为一可选实施例,如果匹配的关键字词数为三个,其中,第一个关键字词出现1次,第二个关键字词出现2次,第三个关键字词出现3次,则统计的次数为6次。
作为另一可选实施例,读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:
C11,获取读取的信息中的语句的词语关系;
C12,对获取的词语关系进行贝叶斯过滤,如果过滤结果表明为垃圾,标记所述读取的信息为垃圾信息,如果过滤结果表明为非垃圾,标记所述读取的信息为非垃圾信息,所述标记映射贝叶斯过滤策略。
本实施例中,利用贝叶斯过滤对信息源中的语句的词语关系进行贝叶斯过滤,判断语句是否为垃圾信息,当判断结果是垃圾信息时,进行标记。
作为再一可选实施例,读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:
D11,获取读取的信息对应的初始消息摘要算法第五版值;
D12,对所述读取的信息进行消息摘要算法第五版值计算,得到当前消息摘要算法第五版值;
D13,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值不相同,标记所述读取的信息为垃圾信息,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值相同,标记所述读取的信息为非垃圾信息,所述标记映射消息摘要算法第五版策略。
本实施例中,每一信息都有初始MD5值,如果任何用户对该信息进行了任何改动,其MD5值也会发生相应变化。本实施例中,通过获取信息的初始MD5值,并计算该信息的当前MD5值,进行比较,当MD5值相同时,判断该信息为有用信息,当MD5值不同时,判断该信息是垃圾信息,并进行相应标记。
本实施例中,利用初始MD5值与当前MD5值的比较,不仅可以判断出读取的信息是否被篡改过了,还可以判断篡改的具体段落。
A12,按照提取的第二垃圾判断策略,对所述相邻两隔断标识之间的一信息再次进行垃圾信息判断,并进行第二垃圾判断策略标记;
本实施例中,如果第一垃圾判断策略为关键字匹配策略,则第二垃圾判断策略可以为贝叶斯过滤策略、和/或,消息摘要算法第五版策略。
A13,判断所述待推送信息源相邻两隔断标识之间的信息是否读取完毕,如果是,结束流程,如果否,读取所述待推送信息源相邻两隔断标识之间未被读取的一信息,执行所述按照提取的第一垃圾判断策略的步骤。
步骤104,依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;
本实施例中,作为一可选实施例,依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量包括:
D11,依次以隔断包含的每一信息为一行,以每一垃圾判断策略为一列构建所述数组向量;
D12,将每一垃圾判断策略为每一所述读取的信息标记的数值写入所述数组向量相应的行列中。
本实施例中,所述隔断包含的信息数为所述数组向量的总行数,进行垃圾判断的垃圾判断策略总数为总列数。
本实施例中,作为一可选实施例,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度包括:
E11,统计一行中标记为垃圾信息的总列数;
E12,将统计得到的总列数除以所述数组向量的总行数,得到该行的文本垃圾密度。
本实施例中,作为一可选实施例,还可以为每一列分配相应的权重系数,每一列对应的权重系数可以不同,权重系数的大小可依据实际需要设置。
当然,实际应用中,在数组向量中,也可以以段落为单位,统计该段落的文本垃圾密度,即该段落内标记为垃圾信息的总行列数与该段落内包含的总行数的比值,从而在后续中,如果该段落的文本垃圾密度大于预先设置的垃圾密度阈值,直接删除该段落。
步骤105,如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。
本实施例中,每一行对应一相邻两隔断标识之间的信息,如果该行的文本垃圾密度大于预先设置的垃圾密度阈值,则将该行对应的相邻两隔断标识之间的信息删除。
本实施例中,作为一可选实施例,该方法还包括:
对删除信息的待推送信息源重新编辑后进行推送。
本实施例中,作为一可选实施例,重新编辑可以是针对删除的区域,将未删除的内容依次前移,使之覆盖删除的区域。
本发明的实施例一处理信息源的方法,按照预先设置的隔断策略对待推送信息源设置隔断标识;提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。这样,通过垃圾组合判断策略集判断待推送信息源中相邻两隔断标识之间的信息是否为垃圾信息,可以检测出篡改或是推广的无用信息,从而进行删除,使得展示给用户的信息源为有用的信息,节约用户的浏览时间,提升推送给用户的信息源质量,能够有效增强用户的浏览体验;而且,有效降低了推送的信息源的流量资源,从而减少了用户的成本。
图2为本发明的实施例二处理信息源的装置结构示意图,如图2所示,本实施例的装置可以包括:隔断模块21、策略提取模块22、标记模块23、文本垃圾密度计算模块24以及文本垃圾处理模块25,其中,
隔断模块21,用于按照预先设置的隔断策略对待推送信息源设置隔断标识;
本实施例中,作为一可选实施例,预先设置的隔断策略包括:句隔断以及段落隔断。
本实施例中,作为一可选实施例,待推送信息源包括:文本、和/或,图片。
策略提取模块22,用于提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;
本实施例中,作为一可选实施例,垃圾组合判断策略集包括:关键字匹配策略、贝叶斯过滤策略以及消息摘要算法第五版策略。
本实施例中,作为一可选实施例,提取垃圾组合判断策略集中的任意两种以上垃圾判断策略,包括:关键字匹配策略和贝叶斯过滤策略、或者,贝叶斯过滤策略和消息摘要算法第五版策略、或者,关键字匹配策略和消息摘要算法第五版策略、或者,关键字匹配策略,贝叶斯过滤策略和消息摘要算法第五版策略。
标记模块23,用于遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;
本实施例中,作为一可选实施例,标记模块23包括:隔断信息第一标记单元、隔断信息第二标记单元以及第一判断单元(图中未示出),其中,
隔断信息第一标记单元,用于读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记;
本实施例中,作为一可选实施例,隔断信息第一标记单元包括:关键字词提取子单元以及关键字词匹配子单元,其中,
关键字词提取子单元,用于提取读取的信息中包含的关键字词;
关键字词匹配子单元,用于将提取的关键字词与预先设置的垃圾字词库进行匹配,如果相匹配,标记所述读取的信息为垃圾信息,如果不相匹配,标记所述读取的信息为非垃圾信息,所述标记映射关键字匹配策略。
本实施例中,作为一可选实施例,在所述如果相匹配之后,标记所述读取的信息为垃圾信息之前,关键字词匹配子单元还可以用于统计匹配的关键字词的次数,如果统计的次数超过预先设置的次数阈值,执行所述标记所述读取的信息为垃圾信息的步骤。
隔断信息第二标记单元,用于按照提取的第二垃圾判断策略,对所述相邻两隔断标识之间的一信息再次进行垃圾信息判断,并进行第二垃圾判断策略标记;
本实施例中,如果第一垃圾判断策略为关键字匹配策略,则第二垃圾判断策略可以为贝叶斯过滤策略、和/或,消息摘要算法第五版策略。
第一判断单元,用于判断所述待推送信息源相邻两隔断标识之间的信息是否读取完毕,如果是,结束流程,如果否,读取所述待推送信息源相邻两隔断标识之间未被读取的一信息,执行所述按照提取的第一垃圾判断策略的步骤。
作为另一可选实施例,标记模块23包括:词语关系获取单元以及贝叶斯过滤单元(图中未示出),其中,
词语关系获取单元,用于获取读取的信息中的语句的词语关系;
贝叶斯过滤单元,用于对获取的词语关系进行贝叶斯过滤,如果过滤结果表明为垃圾,标记所述读取的信息为垃圾信息,如果过滤结果表明为非垃圾,标记所述读取的信息为非垃圾信息,所述标记映射贝叶斯过滤策略。
作为再一可选实施例,标记模块23包括:第一消息摘要读取单元、第二消息摘要计算单元以及消息摘要处理单元(图中未示出),其中,
第一消息摘要读取单元,用于获取读取的信息对应的初始消息摘要算法第五版值;
第二消息摘要计算单元,用于对所述读取的信息进行消息摘要算法第五版值计算,得到当前消息摘要算法第五版值;
消息摘要处理单元,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值不相同,标记所述读取的信息为垃圾信息,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值相同,标记所述读取的信息为非垃圾信息,所述标记映射消息摘要算法第五版策略。
文本垃圾密度计算模块24,用于依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;
本实施例中,作为一可选实施例,文本垃圾密度计算模块24包括:向量构建单元、向量写入单元以及文本垃圾密度计算单元(图中未示出),其中,
向量构建单元,用于依次以隔断包含的每一信息为一行,以每一垃圾判断策略为一列构建所述数组向量;
向量写入单元,用于将每一垃圾判断策略为每一所述读取的信息标记的数值写入所述数组向量相应的行列中;
文本垃圾密度计算单元,用于依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度。
本实施例中,作为一可选实施例,文本垃圾密度计算单元包括:列数统计子单元以及文本垃圾密度计算子单元,其中,
列数统计子单元,用于统计一行中标记为垃圾信息的总列数;
文本垃圾密度计算子单元,用于将统计得到的总列数除以所述数组向量的总行数,得到该行的文本垃圾密度。
本实施例中,作为一可选实施例,还可以为每一列分配相应的权重系数,每一列对应的权重系数可以不同,权重系数的大小可依据实际需要设置。
文本垃圾处理模块25,如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。
本实施例中,作为一可选实施例,文本垃圾处理模块25还用于对删除信息的待推送信息源重新编辑后进行推送。
本实施例中,作为一可选实施例,该装置还包括:
段落分隔符处理模块26,用于获取所述待推送信息源中的段落分隔符,删除所述段落分隔符之外的信息。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本发明实施例还提供一种电子设备,所述电子设备包含前述任一实施例所述的装置。
图3为本发明电子设备一个实施例的结构示意图,可以实现本发明图1-2所示实施例的流程,如图3所示,上述电子设备可以包括:壳体31、处理器32、存储器33、电路板34和电源电路35,其中,电路板34安置在壳体31围成的空间内部,处理器32和存储器33设置在电路板34上;电源电路35,用于为上述电子设备的各个电路或器件供电;存储器33用于存储可执行程序代码;处理器32通过读取存储器33中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例所述的处理信息源的方法。
处理器32对上述步骤的具体执行过程以及处理器32通过运行可执行程序代码来进一步执行的步骤,可以参见本发明图1-2所示实施例的描述,在此不再赘述。
该电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本
发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (17)

1.一种处理信息源的方法,其特征在于,包括:
按照预先设置的隔断策略对待推送信息源设置隔断标识;
提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;
遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;
依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;
如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。
2.根据权利要求1所述的处理信息源的方法,其特征在于,在所述按照预先设置的隔断策略对待推送信息源设置隔断标识之前,所述方法还包括:
获取所述待推送信息源中的段落分隔符,删除所述段落分隔符之外的信息。
3.根据权利要求1所述的处理信息源的方法,其特征在于,所述遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记包括:
读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记;
按照提取的第二垃圾判断策略,对所述相邻两隔断标识之间的一信息再次进行垃圾信息判断,并进行第二垃圾判断策略标记;
判断所述待推送信息源相邻两隔断标识之间的信息是否读取完毕,如果是,结束流程,如果否,读取所述待推送信息源相邻两隔断标识之间未被读取的一信息,执行所述按照提取的第一垃圾判断策略的步骤和所述按照提取的第二垃圾判断策略的步骤。
4.根据权利要求3所述的处理信息源的方法,其特征在于,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:
提取读取的信息中包含的关键字词;
将提取的关键字词与预先设置的垃圾字词库进行匹配,如果相匹配,标记所述读取的信息为垃圾信息,如果不相匹配,标记所述读取的信息为非垃圾信息,所述标记映射关键字匹配策略。
5.根据权利要求3所述的处理信息源的方法,其特征在于,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:
获取读取的信息中的语句的词语关系;
对获取的词语关系进行贝叶斯过滤,如果过滤结果表明为垃圾,标记所述读取的信息为垃圾信息,如果过滤结果表明为非垃圾,标记所述读取的信息为非垃圾信息,所述标记映射贝叶斯过滤策略。
6.根据权利要求3所述的处理信息源的方法,其特征在于,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:
获取读取的信息对应的初始消息摘要算法第五版值;
对所述读取的信息进行消息摘要算法第五版值计算,得到当前消息摘要算法第五版值;
如果初始消息摘要算法第五版值与当前消息摘要算法第五版值不相同,标记所述读取的信息为垃圾信息,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值相同,标记所述读取的信息为非垃圾信息,所述标记映射消息摘要算法第五版策略。
7.根据权利要求4至6任一项所述的处理信息源的方法,其特征在于,所述依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量包括:
依次以隔断包含的每一信息为一行,以每一垃圾判断策略为一列构建所述数组向量;
将每一垃圾判断策略为每一所述读取的信息标记的数值写入所述数组向量相应的行列中。
8.根据权利要求7所述的处理信息源的方法,其特征在于,所述依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度包括:
统计一行中标记为垃圾信息的总列数;
将统计得到的总列数除以所述数组向量的总行数,得到该行的文本垃圾密度。
9.一种处理信息源的装置,其特征在于,包括:隔断模块、策略提取模块、标记模块、文本垃圾密度计算模块以及文本垃圾处理模块,其中,
隔断模块,用于按照预先设置的隔断策略对待推送信息源设置隔断标识;
策略提取模块,用于提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;
标记模块,用于遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;
文本垃圾密度计算模块,用于依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;
文本垃圾处理模块,如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。
10.根据权利要求9所述的处理信息源的装置,其特征在于,所述装置还包括:
段落分隔符处理模块,用于获取所述待推送信息源中的段落分隔符,删除所述段落分隔符之外的信息。
11.根据权利要求9所述的处理信息源的装置,其特征在于,所述标记模块包括:隔断信息第一标记单元、隔断信息第二标记单元以及第一判断单元,其中,
隔断信息第一标记单元,用于读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记;
隔断信息第二标记单元,用于按照提取的第二垃圾判断策略,对所述相邻两隔断标识之间的一信息再次进行垃圾信息判断,并进行第二垃圾判断策略标记;
第一判断单元,用于判断所述待推送信息源相邻两隔断标识之间的信息是否读取完毕,如果是,结束流程,如果否,读取所述待推送信息源相邻两隔断标识之间未被读取的一信息,并通知所述隔断信息第一标记单元和所述隔断信息第二标记单元。
12.根据权利要求11所述的处理信息源的装置,其特征在于,所述隔断信息第一标记单元包括:关键字词提取子单元以及关键字词匹配子单元,其中,
关键字词提取子单元,用于提取读取的信息中包含的关键字词;
关键字词匹配子单元,用于将提取的关键字词与预先设置的垃圾字词库进行匹配,如果相匹配,标记所述读取的信息为垃圾信息,如果不相匹配,标记所述读取的信息为非垃圾信息,所述标记映射关键字匹配策略。
13.根据权利要求11所述的处理信息源的装置,其特征在于,所述标记模块包括:词语关系获取单元以及贝叶斯过滤单元,其中,
词语关系获取单元,用于获取读取的信息中的语句的词语关系;
贝叶斯过滤单元,用于对获取的词语关系进行贝叶斯过滤,如果过滤结果表明为垃圾,标记所述读取的信息为垃圾信息,如果过滤结果表明为非垃圾,标记所述读取的信息为非垃圾信息,所述标记映射贝叶斯过滤策略。
14.根据权利要求11所述的处理信息源的装置,其特征在于,所述标记模块包括:第一消息摘要读取单元、第二消息摘要计算单元以及消息摘要处理单元,其中,
第一消息摘要读取单元,用于获取读取的信息对应的初始消息摘要算法第五版值;
第二消息摘要计算单元,用于对所述读取的信息进行消息摘要算法第五版值计算,得到当前消息摘要算法第五版值;
消息摘要处理单元,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值不相同,标记所述读取的信息为垃圾信息,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值相同,标记所述读取的信息为非垃圾信息,所述标记映射消息摘要算法第五版策略。
15.根据权利要求12至14任一项所述的处理信息源的装置,其特征在于,所述文本垃圾密度计算模块包括:向量构建单元、向量写入单元以及文本垃圾密度计算单元,其中,
向量构建单元,用于依次以隔断包含的每一信息为一行,以每一垃圾判断策略为一列构建所述数组向量;
向量写入单元,用于将每一垃圾判断策略为每一所述读取的信息标记的数值写入所述数组向量相应的行列中;
文本垃圾密度计算单元,用于依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度。
16.根据权利要求15所述的处理信息源的装置,其特征在于,所述文本垃圾密度计算单元包括:列数统计子单元以及文本垃圾密度计算子单元,其中,
列数统计子单元,用于统计一行中标记为垃圾信息的总列数;
文本垃圾密度计算子单元,用于将统计得到的总列数除以所述数组向量的总行数,得到该行的文本垃圾密度。
17.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一权利要求1-8所述的处理信息源的方法。
CN201610513038.8A 2016-06-30 2016-06-30 一种处理信息源的方法、装置及电子设备 Active CN107562759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610513038.8A CN107562759B (zh) 2016-06-30 2016-06-30 一种处理信息源的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610513038.8A CN107562759B (zh) 2016-06-30 2016-06-30 一种处理信息源的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107562759A CN107562759A (zh) 2018-01-09
CN107562759B true CN107562759B (zh) 2020-11-13

Family

ID=60969126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610513038.8A Active CN107562759B (zh) 2016-06-30 2016-06-30 一种处理信息源的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107562759B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639838B (zh) * 2019-02-13 2020-03-17 随身云(南京)信息技术有限公司 一种基于大数据的信息分类存储系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778226A (zh) * 2014-01-23 2014-05-07 北京奇虎科技有限公司 构建语言信息识别模型的方法及语言信息识别装置
CN103970832A (zh) * 2014-04-01 2014-08-06 百度在线网络技术(北京)有限公司 一种识别垃圾信息的方法与装置
CN104702492A (zh) * 2015-03-19 2015-06-10 百度在线网络技术(北京)有限公司 垃圾消息模型训练方法、垃圾消息识别方法及其装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779176A (zh) * 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778226A (zh) * 2014-01-23 2014-05-07 北京奇虎科技有限公司 构建语言信息识别模型的方法及语言信息识别装置
CN103970832A (zh) * 2014-04-01 2014-08-06 百度在线网络技术(北京)有限公司 一种识别垃圾信息的方法与装置
CN104702492A (zh) * 2015-03-19 2015-06-10 百度在线网络技术(北京)有限公司 垃圾消息模型训练方法、垃圾消息识别方法及其装置

Also Published As

Publication number Publication date
CN107562759A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN109657213B (zh) 文本相似度检测方法、装置和电子设备
CN106155789B (zh) 一种应用冻结方法及移动终端
CN103699585A (zh) 文件的元数据存储以及文件恢复的方法、装置和系统
CN105809471B (zh) 一种获取用户属性的方法、装置及电子设备
CN102929980B (zh) 一种文件夹清理方法及装置
CN109803152A (zh) 违规审核方法、装置、电子设备以及存储介质
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN109656385B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN111163072A (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN106462933A (zh) 使用内容结构来社交地连接用户
CN107169011B (zh) 基于人工智能的网页原创性识别方法、装置及存储介质
CN110347900B (zh) 一种关键词的重要度计算方法、装置、服务器及介质
CN111222328B (zh) 标签提取方法、装置和电子设备
CN107562759B (zh) 一种处理信息源的方法、装置及电子设备
CN108804917B (zh) 一种文件检测方法、装置、电子设备及存储介质
CN110874526A (zh) 一种文件相似性检测方法、装置、电子设备及存储介质
CN114328983A (zh) 文档碎化方法、数据检索方法、装置及电子设备
CN104376304A (zh) 一种文本广告图像的识别方法及装置
CN109508390B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN110674286A (zh) 一种文本摘要抽取方法、装置及存储设备
CN104216872B (zh) 一种识别网络小说中垃圾章节的方法及装置
CN112036133B (zh) 一种文件保存方法、装置、电子设备及存储介质
CN106657316B (zh) 一种消息撤回方法及装置
CN106779844B (zh) 一种获取增值业务信息的方法、装置及电子设备
CN107544993B (zh) 一种处理图片的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant