CN105574061A

CN105574061A - 网络信息获取工具对用户生成内容的过滤方法

Info

Publication number: CN105574061A
Application number: CN201510270155.1A
Authority: CN
Inventors: 刘晓建
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-05-24
Filing date: 2015-05-24
Publication date: 2016-05-11

Abstract

网络信息获取工具对UGC(用户生成内容)进行过滤的方法，包括将UGC分为实质性内容和辅助性内容，在用户终端上缓存用户收到的所有UGC，网络信息获取工具把从服务器新收到的UGC与当前缓存的UGC进行“逻辑或”方式的汇总，并对汇总结果按其实质性内容进行分组，且分组的生成时间设定为分组内某UGC的生成时间，最后以分组的生成时间为排序依据，逐个显示各分组所包含的UGC。当把用户自己生成的UGC缓存在用户终端上时，网络信息获取工具把来自服务器的待显示的UGC集合与当前缓存的用户自己发出的UGC进行“逻辑减”方式汇总，并按照普通方式显示汇总结果，可防止用户看到与自己发送的UGC具有相同实质内容的UGC。

Description

网络信息获取工具对用户生成内容的过滤方法

技术领域

本发明公开一般的涉及对于网络信息获取工具对于用户生成内容的显示，更具体涉及用于对用户生成内容进行过滤的过滤方法。

背景技术

当前用户经常通过网络信息获取工具生成大量的用户生成内容(后文简称为UGC，即：UserGeneratedContent)，用户通过阅读其他用户的UGC来进行社交和信息获取。当出现某热点事件时，大量用户往往会转发相同的信息，造成用户生成实质上相同UGC。当用户期望通过阅读他人的UGC来达到信息获取目的时，大量本质上相同的UGC会影响用户的阅读效率。

另外，转发了某个信息的用户有时不希望看到因其他用户转发同样信息而产生的UGC。

在服务器端进行本质上相同的UGC内容的聚合会加大服务器的负载压力。

为此，本发明提出一种网络信息获取工具在用户本地实现信息汇总显示的方法，以防止用户被相同内容的UGC刷屏。

发明内容

鉴于相同内容的UGC会降低用户有效获取信息的速度、在网络服务器端进行UGC内容的汇总会加大服务器的负载的问题，本发明提出一种在用户本地实现对他人产生的UGC进行信息过滤显示的方法。此方法分为两个子方法。

1.对他人产生的同质UGC进行过滤显示的方法

本方法的原理是：将用户生成内容分为实质性内容和辅助性内容，且此网络信息获取工具在用户终端上缓存了最近预定时间范围内的此用户收到的所有的用户生成内容，当此网络信息获取工具从服务器收到要显示的用户生成内容时，把新收到的用户生成内容与当前缓存的用户生成内容进行“逻辑或”方式的汇总，再将汇总后的所有用户生成内容按照其实质性内容进行分组，并以分组中某个用户生成内容的生成时间作为此分组的生成时间，最后按照分组的生成时间从近到远的顺序，逐个显示各个分组所包含的用户生成内容、且每个分组所包含的实质性内容被显示的次数不超过1次。

具体的说，在本方法中，将UGC分为CONTENT,OTHER_PART两部分，其中CONTENT包括用户在生成内容时所输入的文字、语音、视频、图片信息等信息；OTHER_PART为UGC中除去CONTENT之外的信息；网络信息获取工具包含DISPLAY_HIS数据库，该数据库缓存了最近预定时间段长度内、网络信息获取工具所收到的UGC信息；当网络信息获取工具收到网络服务器发送的UGC集合USet后，将USet中UGC和DISPLAY_HIS数据库中的UGC根据其包含的CONTENT内容相同情况进行汇总、并按照时间轴由近到远的顺序向用户显示汇总后的内容。

针对用户有时希望临时将某个UGC内容由汇总显示模式切换为非汇总显示模式，所述网络信息获取工具可以在汇总显示UGC内容时，同时提供一个切换选项。当所述网络信息获取工具获知用户希望以非汇总方式查看某CONTENT对应的各个UGC时，向用户显示具有所有或特定包含该CONTENT的UGC。

在实现上，可以将UGC解析为<CONTENT,PRODUCER,AUXILIARY>序偶，其中CONTENT包括用户在生成内容时所输入的文字、语音、视频、图片信息等信息；PRODUCER为生成此UGC的用户；AUXILIARY可包括用户在生成此UGC时所直接或间接输入的生成时间、终端类型、地理位置等信息；AUXILIARY还可包括在用户生成CONTENT后，所有用户关于本CONTENT进一步生成的点赞、评论等信息。用户事先将所述网络信息获取工具设置为希望以汇总方式显示具有相同CONTENT的UGC。所述网络信息获取工具内部包含DISPLAY_HIS数据库。

DISPLAY_HIS数据库记录了集合DSet.。DSet的定义如下：

DSet＝{<content,producer_set,earliest_tm>|

存在曾经收到过的一个UGCugc＝<c,p,aux>，满足条件:①ugc的生成时间落在最近预定时间段长度内；②c的值等于content；

对任意两个曾经收到过的UGCugc1和ugc2，满足条件:若ugc1和ugc2的生成时间均落在最近预定时间段长度内、且ugc1和ugc2的CONTENT值均为content，则ugc1和ugc2的PRODUCER均在producer_set内、且ugc1和ugc2的生成时间不早于earliest_tm；

对于集合producer_set中的任意一个元素prod，总存在一个曾经收到过的UGCugc_y，满足条件:①ugc_y的生成时间落在最近预定时间段长度内；②ugc_y的CONTENT值是content；③ugc_y的PRODUCER值为prod；

存在一个曾经收到过的UGCugc_x，满足条件:①ugc_x的生成时间落在最近预定时间段长度内；②ugc_x的CONTENT值为content；③ugc_x的生成时间等于earliest_tm}。

(1)当所述网络沟通工具在收到对应网络服务器发送的UGC的集合后，针对集合中的每个UGCugc，执行包括如下步骤的流程对数据进行预处理：

MPROD1将ugc的CONTENT值记为cont，将ugc的生成时间记为gentime,将ugc的PRODUCER记为uprod；

MPROD2获取所述DSet中，cont对应的元素elem，记elem的producer_set域为pset，earliest_tm域为e_tm；

MPROD3若步骤MPROD2找到的elem为空，则执行步骤MPROD4,否则执行MPROD7；

MPROD4将cont标记为“标准显示模式”；

MPROD5在DSet中添加ugc对应的元素<cont,{uprod},gentime>；

MPROD6处理结束；

MPROD7修改DSet中元素elem的producer_set域，将uprod加入到集合pset中；

MPROD8若elem的e_tm早于gentime、且cont被标记为“标准显示模式”，则执行步骤MPROD9,否则执行MPROD11；

MPROD9将cont的标记改为“汇总显示模式”，

MPROD10处理结束；

MPROD11若elem的e_tm晚于gentime，则执行步骤MPROD12，否则执行MPROD15；

MPROD12修改DSet中elem元素：将其earliest_tm域修改为gentime；

MPROD13将cont标记为“汇总显示模式”；

MPROD14处理结束；

MPROD15若uprod为elem当前producer_set域中的中唯一元素，则将cont标记为“标准显示模式”，否则将cont标记为“汇总显示模式”；

MPROD16处理结束。

2.对他人产生的、与用户自己产生过的UGC本质上相同的UGC进行过滤的方法

本方法的原理是：将用户生成内容分为实质性内容和辅助性内容，且此网络信息获取工具在用户终端上缓存了用户在最近预定时间范围内所生成的所有的用户生成内容，当此网络信息获取工具从服务器收到要显示的用户生成内容集合后，从此集合中减去与网络信息获取工具缓存的用户自己生成的用户生成内容具有相同实质性内容的用户生成内容，然后再按照普通方式显示此集合中剩余的用户生成内容。

具体的说，在本方法中，UGC被解析为序偶<CONTENT、OTHER_PART>，其中CONTENT可包括用户在生成内容时所输入的文字、语音、视频、图片信息；OTHER_PART为所述UGC中除CONTENT之外的部分；所述网络信息获取工具包含MY_UGC数据库，该数据库记录了用户生成的、满足如下性质的UGC的CONTENT值：

性质1:该UGC的生成时间落在预定时间段内(如最近24小时)；

性质2：用户在生成此UGC时或生成此UGC之前，向所述网络沟通工具声明了“不关注其他用户生成的、与此UGC具有相同CONTENT的UGC”。

当所述网络信息获取工具在收到对应网络服务器发送的UGC集合之后，在显示UGC之前，检查欲显示的UGC的CONTENT值是否已被记入了MY_UGC中，若是的话，则不显示此UGC，否则就按照正常方式显示此UGC。

在实际使用是，由于完全的匹配比较耗时间，可以使用一个具有很低碰撞率的散列函数对UGC的CONTENT值进行散列，得到该CONTENT的特征值，并在MY_UGC中存储此类特征值，而不是具体的CONTENT值。若其他用户产生的UGCugc的CONTENT值的特征码落在MY_UGC内，就认为这个用户曾经发送过与ugc具有相同实质内容的UGC。

说明书附图说明：

图1为在采用本发明对他人UGC进行信息汇总的方法时，网络信息获取工具在接收到相应网络服务器发送来的他人UGC集合后，在真正进行内容显示前，针对这个UGC集合中的每个UGCugc，进行的与信息汇总有关的处理流程。

图2为采用本发明对他人UGC信息进行汇总的方法时，网络信息获取工具针对每个需要显示的UGC内容的显示流程。这个流程的输入是需要显示的UGC的CONTENT部分。在实际应用中，这个流程的输入也可以是UGC的CONTENT部分经过散列函数计算之后生成的特征值，此时，图2所示的流程中要增加根据此特征值查找到UGC的CONTENT的相应逻辑和数据结构。

图3为采用本发明对他人UGC进行信息汇总显示时，一种可能的最终显示效果图。在图示的情形中，当出现汇总显示时，其发送者用户头像被显示为网络信息获取工具预先设置的“汇总头像”，信息生成时间被显示为被汇总的UGC中的最早的生成时间。用户可以通过点按带下划线的名字，如Andy，来以非汇总方式查看Andy关于此内容的具体的UGC(从而导致用户可以看到其他用户针对Andy此UGC新产生的、包括点赞/评论等在内的内容)。

图4为采用本发明对他人UGC进行信息汇总显示时，一种可能的最终显示效果图。该图与图3为区别主要在于：当用户选中“展开”选项时，网络信息获取工具会依次显示原本被汇总显示的各个UGC，此时用户可以看到针对用户王五产生的UGC，用户Somebody发表了评论“太搞笑了哦”；当用户选中“折叠”选项时，恢复对这些UGC的汇总显示。

图5为采用本发明的过滤掉他人产生的、与自己产生的UGC本质上相同的UGC的方法时，网络信息获取工具在收到网络服务器传送来的UGC集合时，针对该UGC集合中的每个ugc进行的预处理流程。

图6显示了一种允许用户在生成UGC时，向网络信息获取工具声明是否应将其他用户产生的与当前UGC具有实质相同含义的UGC过滤掉的操作界面。在此操作界面，若用户使用“不看同类发送”按钮发送了当前UGC，则当前UGC的内容就会被记入MY_UGC中；而使用“发送”按钮发送的UGC的内容就不会被放入MY_UGC中。

图7为在实施“对他人产生的同质UGC进行过滤显示方法”时，采用具体实施方式中所述的producer_info表、ugc_detail表和临时的待显示列表时，网络信息获取工具在收到网络服务器发送来的用户生成内容集合后，对每个用户生成内容的预处理流程。

图8与图7配合使用，图8描述了网络信息获取工具为用户显示汇总后信息的流程。

具体实施方式：

1.对他人产生UGC进行过滤显示的方法的典型实施方式

网络信息获取工具将UGC解析为CONTENT,PRODUCER和AUXILIARY三部分。其中CONTENT包括用户在生成内容时所输入的文字、语音、视频、图片信息；PRODUCER为生成此UGC的用户；AUXILIARY可包括用户在生成此UGC时所直接或间接输入的生成时间、终端类型、地理位置等信息；AUXILIARY还可包括在用户生成内容后，所有用户关于本用户生成内容进一步生成的点赞、评论信息。

网络信息获取工具维护了producer_info表和ugc_detail表。producer_info表中记录项的格式为<token,producer_set>，ugc_detail表中记录项的格式为<token,ugc_set,earliest_time>，其中，

token为根据UGC的CONTENT，按照特定的散列算法计算获得的标识信息，通过选择合适的散列算法，可以保证不同的CONTENT具有相同的token的概率低于某预定阈值，从而可以认为：若两个UGC的CONTENT具有相同的token，那么这两个UGC具有相同的实质内容；

producer_set是一个用户的集合，它包含了当前用户所关注的用户中、所有产生了本记录项所含token对应的CONTENT的UGC的用户；

ugc_set是一个UGC的集合，它包含了当前用户所关注的所有用户所生成的、所有CONTENT的散列值为本记录项所含token的UGC；

earliest_time为本记录项所含ugc_set中所有UGC所拥有的最早生成时间。

为了节省运行网络信息获取工具的终端的存储空间和提高信息检索速度，producer_info表和ugc_detail表可只保存最近一段时间(如最近48小时)的信息。

网络信息获取工具在获取和显示UGC时，内部维护一个临时性质的待显示列表，此表中记录项的格式为<token,earliest_gen_time,view>，其中token的含义同前，earliest_gen_time为在ugc_detail表中、token值对应的记录项的earliest_time值,view标记的取值范围为{不显示，标准显示UGC,汇总显示UGC}。在每次用户主动触发更新显示UGC时、或网络信息获取工具定时触发更新显示UGC时，待显示列表都被初始为空，向待显示列表中插入记录时，被插入的记录的view域默认为“不显示”。

当用户通知网络信息获取工具刷新显示其他用户生成的UGC时，网络信息获取工具会向相关网络服务器发送信息获取请求，网络信息获取工具针对收到的相关网络服务器返回的每个UGC信息ugc，执行包含如下步骤的预处理流程：

PRED1获取此ugc的CONTENT值ugc_cont、PRODUCER值ugc_prod和生成时间gtime；

PRED2根据预定的散列算法，计算ugc_cont对应的token值tk；

PRED3获得producer_info表中、tk对应的记录项p_elem；

PRED4若步骤PRED3没有找到符合条件的p_elem，则执行步骤PRED5，否则执行步骤PRED7；

PRED5在producer_info表中添加记录<tk,{ugc_prod}>；在ugc_detail中添加记录<tk,{ugc},gtime>；在待显示列表中添加记录<tk,gtime,不显示>；

PRED6处理结束；

PRED7将ugc_prod添加到记录p_elem的producer_set域中；

PRED8获得ugc_detail表中、tk对应的记录d_elem；

PRED9将ugc添加到记录d_elem的ugc_set集合中；

PRED10若gtime不晚于d_elem的earliest_time，则执行步骤PRED11，否则处理结束；

PRED11将记录d_elem的earliest_time改为gtime；

PRED12获得待显示列表中tk对应的记录tk_elem；

PRED13若tk_elem不存在，则在待显示列表中添加记录<tk,gtime,不显示>，否则将tk_elem的earliest_gen_time值改为gtime；

PRED14处理结束；

当网络信息获取工具需要向用户显示UGC时，执行包含如下步骤的流程：

SHOW1将待显示列表中的记录按照earliest_gen_time值距当前时间的由近到远的顺序进行排序；

SHOW2循环，按照待显示列表中记录的先后顺序逐个获取被标记为“不显示”的记录项RECORD，执行包含如下步骤的流程：

SHOW2-1若用户屏幕不能显示更多内容，则退出循环；

SHOW2-2获取RECORD包含的token值tk；

SHOW2-3查询ugc_detail表，获得tk对应的ugc_set；

SHOW2-4若步骤SHOW2-3获得的ugc_set中只包含一个UGC，则将RECORD的view域设置为“标准显示UGC”，否则将RECORD的view域设置为“汇总显示UGC”；

SHOW2-5计算若汇总显示本RECORD对应的UGC时，当前用户屏幕剩余的显示空间；

SHOW3若用户屏幕还有空间显示更多UGC，则转到步骤SHOW4，否则转到步骤SHOW6；

SHOW4请求从网络服务器获取更多的UGC；

SHOW5处理结束；

SHOW6按照待显示列表中对各个记录的标记，显示待显示列表中的记录；

SHOW7处理结束。

假设在网络信息获取工具中设定了仅保存最近24小时内，其他用户产生的UGC，下面以一种假想的场景来说明以上流程对各种情形的处理方式。

用户A0在6:40通过转发，生成了内容为视频VIDEO的UGC00

用户A0在6:50通过原创，生成了内容为音频AUDIO的UGC01；

用户A1在7:00通过转发，生成了内容为图片PICTURE的UGC1

用户A7在7:03通过转发，生成了内容为图片PHOTO的UGC7；

用户A2在7:04通过转发，生成了内容为图片PICTURE的UGC2；

用户A3在7:30通过原创，生成了内容为文字TEXT的UGC3；

用户A4在7:59通过原创，生成了内容为文字TEXT的UGC4；

用户A5在7:59通过转发，生成了内容为视频VIDEO的UGC5；

用户A6在8:01通过转发，生成了内容为图片PICTURE的UGC6；

用户V1关注且仅关注了用户A0、A1、A2、A3、A4、A5、A6；

用户V1在7:01令网络信息获取工具刷新显示其他用户的UGC，网络服务器对此刷新UGC请求的应答包含了按时间由近到远排序的UGC1、UGC01、UGC00；

用户V1在8:00令网络信息获取工具刷新显示其他用户的UGC，网络服务器对此刷新UGC请求的应答包含了按时间由近到远排序的、UGC2到UGC5的集合Set；

网络信息获取工具在收到网络服务器发送来的Set后，逐个检查Set中的每个UGC：

在处理UGC5时，因用户V1在7:01刷新显示过UGC，UGC5所包含的内容VIDEO已在producer_info表中有相应的记录项、且该记录项中记录的producer_set中包含了用户A0。网络信息获取工具对UGC5的处理导致producer_info表中相应记录的producer_set中添加了用户A5和ugc_detail表中相应记录的ugc_set中增添UGC5。因UGC5的生成时间晚于UGC00，故对UGC5的处理不会导致待显示列表中增加记录。

在处理UGC4时，因用户V1尚未收到过内容为TEXT的UGC，故对UGC4的处理导致producer_info表、ugc_detail表、和待显示列表中新增TEXT对应的记录，且待显示列表中相应的记录被标记为“不显示”、且生成时间被标记为7:59。

在处理UGC3时，之前对于UGC4的处理导致TEXT在ugc_detail表中已经有记录、且该记录中的earliest_time为7:59，对UGC3的处理将导致更新TEXT在ugc_detail表和producer_info表中相应记录的更新。因7:59不早于UGC3的生成时间7:30，对UGC3的处理还将导致ugc_detail表中TEXT对应记录的earliest_time被更新为7:30和待显示列表中相应记录的生成时间被标记为7:30。

在处理UGC2时，因用户V1在7:01刷新显示UGC时，已经为内容PICTURE在producer_info表和ugc_detail表中创建了相应的记录，且ugc_detail中记录的earliest_time为7:00，而UGC2的生成时间为7:02，故对UGC2的处理仅导致producer_info表和ugc_detail表中相应记录被更新，而不会导致待显示列表的变动。

对Set中UGC进行预处理结束后，网络信息获取工具将待显示列表中的记录进行排序后，获得一个只有一个记录(该记录的token对应的内容为TEXT)的列表，在显示阶段发现此记录的token在ugc_detail表中对应不止一个UGC，将此记录标记为“汇总显示UGC”。在扫描完待显示列表中包含的所有记录后，若发现按照这些记录中标记的方式显示在当前待显示列表中登记的信息时，可以占满用户终端屏幕，则直接显示这些信息，然后处理结束；在本场景中，由于待显示列表中只有一个记录，显示这些信息时，无法占满整个用户终端屏幕，故网络信息获取工具向网络服务器发出旨在获得更多的UGC的请求req，以便有更多的信息可以显示，然后处理结束。

假设网络服务器响应请求req而新传输的UGC集合Set2包含的UGC为UGC7、UGC1、UGC01、UGC00。

网络信息获取工具逐个处理Set2中的UGC：

在处理UGC7时，因之前用户V1未阅读过内容为PHOTO的UGC，故对UGC7的处理将导致producer_info表、ugc_detail表、和待显示token表被更新，且在待显示token表中，其view域为“不显示”。

在处理UGC1时，虽然内容PICTURE已经在producer_info表和ugc_detail表中有对应记录，但因UGC1的生成时间不晚于ugc_detail表中记录的PICTURE的生成时间，故producer_info表和ugc_detail表将被更新(由于向集合中多次添加同一元素等同于只添加一次该元素，此更新操作实际上不影响两表中相应记录的内容)，待显示列表中也会加入PICTURE对应的记录，且此记录的view域为“不显示”；

在处理UGC01时，虽然内容AUDIO已经在producer_info表和ugc_detail表中有对应记录，但因UGC01的生成时间不晚于ugc_detail表中记录的AUDIO的生成时间，故producer_info表和ugc_detail表将被更新(由于向集合中多次添加同一元素等同于只添加一次该元素，此更新操作实际上不影响两表中相应记录的内容)，待显示token表中也会加入AUDIO对应的记录，且此记录的view域为“不显示”；

在处理UGC00时，虽然内容VIDEO已经在producer_info表和ugc_detail表中有对应记录，但因UGC00的生成时间不晚于ugc_detail表中记录的VIDEO的生成时间，故producer_info表和ugc_detail表将被更新(由于向集合中多次添加同一元素等同于只添加一次该元素，此更新操作实际上不影响两表中相应记录的内容)，待显示token表中也会加入VIDEO对应的记录，且此记录的view域为“不显示”；

对Set2中UGC进行预处理结束后，网络信息获取工具将待显示列表中的记录进行排序后，获得包含个记录的列表，这些记录的token依次为TEXT、PHOTO、PICTURE、AUDIO、VIDEO。这些记录中，当前只有TEXT对应的记录的view域被标记为“汇总显示UGC”，网络信息获取工具逐个检查那些仍然view域仍被标记为“不显示”的记录RECORD：

当检查到PHOTO时，发现它只有一个生产者，将相应RECORD标记为“标准显示UGC”；

当检查到PICTURE时，发现它有不止一个生产者，将相应RECORD标记为“汇总显示UGC”

当检查到AUDIO时，发现它只有一个生产者，将相应RECORD标记为“标准显示UGC”

当检查到VIDEO时，发现已没有更多屏幕空间显示此UGC，停止对待显示列表的扫描；当对待显示列表的扫描后，发现用户屏幕空间已经用完，请求按照待显示列表中的记录，显示相关信息。

当用户在阅读汇总显示的PICTURE时，若选择了“非汇总显示所有UGC”，网络信息获取工具执行包括如下步骤的流程：

DETAIL1获得该汇总显示信息对应的token值；

DETAIL2根据步骤DETAIL1获得的token值，查找ugc_detail表，获得ugc_set；

DETAIL3将汇总显示的UGC扩展为标准显示ugc_set中的各个UGC。

在汇总方式显示UGC时，网络信息获取工具也可以为用户提供操作界面，使得用户可以在被汇总显示的UGC中，挑选出一个特定用户产生的UGC，并采用标准方式显示它。

2.避免看到他人产生的、与自己产生的UGC本质上相同的UGC方法的典型实施方式

网络信息获取工具将UGC解析为序偶<CONTENT、OTHER_PART>，其中CONTENT可包括用户在生成内容时所输入的文字、语音、视频、图片信息；OTHER_PART为所述用户生成内容中除CONTENT之外的部分。

网络信息获取工具使用一个低碰撞率的散列函数HASH对UGC的内容进行散列，计算获得该UGC内容的特征码；

网络信息获取工具内部维护一个用来存储UGC内容特征码的数据库MY_UGC。该MY_UGC满足如下两个要求：①对于MY_UGC中的任意一个记录ugc_token，满足如下条件：存在一个当前用户在最近预定时间段长度内曾经生成过的用户生成内容ugc，且ugc的内容特征码为ugc_token；②对于用户在最近预定时间段长度内曾经生成过的任意用户生成内容ugc，若用户向网络信息获取工具声明过不希望看到与此ugc本质上相同的其他用户用户生成内容，则在MY_UGC中能找到ugc的内容特征码。

网络信息获取工具在用户生成UGC的操作界面、或网络信息获取工具全局操作界面，提供让用户选择“不显示与自己产生UGC本质上相同的UGC”的选项。

当网络信息获取工具接收到用户发送的UGC时，若发现用户声明了“不显示与自己产生UGC本质上相同的UGC”，则执行包含如下步骤的流程：

GEN1获取此UGC的CONTENT信息；

GEN2利用HASH函数，计算此CONTENT的特征码；

GEN3将步骤GEN2获得的特征码记录到MY_UGC表中。

当网络信息获取工具接收到相关网络服务器发送来的UGC集合时，在处理UGC集合中每个UGC时，首先执行包含如下步骤的流程：

FILTER1计算此UGC的CONTENT信息；

FILTER2利用HASH函数，计算此CONTENT的特征码；

FILTER3若在MY_UGC表中能查到步骤FILTER获得的特征码，则向流程调用者返回“应丢弃本UGC”，否则向流程调用者返回“应继续处理本UGC”。

最后，本领域相关技术人员应当明白，以上具体实施方式仅为示例性质。本发明方法在真实场景下的实施方式受网络信息获取工具信息UGC显示获取的UGC的主流程影响。技术人员完全可以在本发明揭示思想的启示下，对本发明方法进行等效变形。这些等效变形均落在本发明的保护范围之内。

Claims

1.一种网络信息获取工具对用户生成内容的过滤方法，其特征在于，

(1)所述用户生成内容被逻辑上分为CONTENT和OTHER_PART两部分，其中CONTENT可包括用户在生成内容时所输入的文字、语音、视频、图片信息；OTHER_PART为所述用户生成内容中除去CONTENT之外的信息；

(2)所述网络信息获取工具包含DISPLAY_HIS数据库，所述DISPLAY_HIS数据库缓存了最近预定时间段长度内、所述网络信息获取工具所收到的所述用户生成内容的信息；

(3)当所述网络信息获取工具收到相应网络服务器发送的所述用户生成内容的集合USet后，将USet中用户生成内容和所述DISPLAY_HIS数据库中的用户生成内容根据其包含的CONTENT内容相同情况进行汇总、并按照时间轴由近到远的顺序向用户显示汇总后的内容。

2.一种网络信息获取工具对用户生成内容的过滤方法，其特征在于，

(2)所述网络信息获取工具包含MY_UGC数据库，所述MY_UGC数据库缓存了最近预定时间段长度内、所述用户提交给所述网络信息获取工具发送的、且所述用户希望所述网络信息获取工具在显示其他用户生成的用户生成内容时过滤掉的用户生成内容；

(3)在所述网络信息获取工具在收到对应网络服务器发送的其他用户的所述用户生成内容的集合之后，在显示这些用户生成内容之前，检查欲显示的用户生成内容的CONTENT值是否已被记入了所述MY_UGC数据库中，若是的话，则不显示此用户生成内容，否则就按照正常方式显示此用户生成内容。

3.如权利要求2所述的方法，其特征在于，所述网络信息沟通工具在用户产生用户生成内容的操作界面上，提供供用户选择是否过滤掉其他用户生成的、与自己当前产生的用户生成内容具有完全相同的CONTENT的用户生成内容的选项。

4.如权利要求1所述的方法，其特征在于，在汇总显示被多个其他用户生成过的CONTENT信息时，所述网络信息获取工具为所述用户显示一个用户列表、且所述用户列表中的每个用户都生成了内容为CONTENT的用户生成内容、且所述用户有权限阅读所述用户生成内容、且当所述用户在此时选中所述列表中的某个用户时，所述网络信息获取工具以非汇总方式单独显示所述被选中的用户生成的、内容为CONTENT的用户生成内容。

5.如权利要求1所述的方法，其特征在于，在汇总显示被多个其他用户生成过的CONTENT信息时，所述网络信息获取工具为所述用户显示一个用户列表和一个切换选项、且所述用户列表中的每个用户都生成了内容为CONTENT的用户生成内容、且所述用户有权限阅读所述用户生成内容、且当所述用户选中此切换选项时，所述网络信息获取工具以非汇总方式显示所述用户列表中用户生成的、内容为CONTENT的用户生成内容。