CN111680072B

CN111680072B - 基于社交信息数据的划分系统及方法

Info

Publication number: CN111680072B
Application number: CN202010375603.5A
Authority: CN
Inventors: 刘春阳; 梁汝锋; 张旭; 薛士猛; 刘巨安
Original assignee: Beijing Blue Light Wit Network Technology Co ltd; National Computer Network and Information Security Management Center
Current assignee: Beijing Blue Light Wit Network Technology Co ltd; National Computer Network and Information Security Management Center
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2023-12-08
Anticipated expiration: 2040-05-07
Also published as: CN111680072A

Abstract

本发明公开了一种基于社交信息数据的划分系统，包括：数据采集装置；数据解析装置，解析社交数据，获取社交信息并进行唯一标识；数据去重装置；多媒体数据转换装置，将去重后的社交信息的多媒体文件提取链接；海量对象存储装置，存储去重后的社交信息；基本数据存储装置，存储去重后的社交信息的标识；分词装置，将去重后的社交信息划分成多个关键词；全文检索装置，将划分的关键词汇总、去重、建立索引。本发明还公开了一种基于社交信息数据的划分方法。本发明还公开了一种电子设备及存储介质。本发明对接收的不同社交媒体的网络信息进行按条件分类显示，方便使用人员更直观的对不同社交媒体的网络信息进行审查。

Description

基于社交信息数据的划分系统及方法

技术领域

本发明涉及计算机信息技术领域。更具体地说，本发明涉及一种基于社交信息数据的划分系统及方法。

背景技术

截至2020年1月，全球网民数量达45.4亿，其中以微信、微博、Twitter、Facebook、Instagram和Google+等为代表的全球化社交网络已经形成了高达38亿人的跨国界、跨民族、跨文化的新网络社区。社交网络用户量多，用户每天发布信息量大，信息内容错杂紊乱。如何高效率对这些海量信息划分成为了难题。目前，对社交信息数据分析方法为采用人工操作的方式去单个社交app操作，如果想知道所有社交app的信息需要在每个社交app上检索出结果，划分完成之后在整合汇总所有社交app符合划分条件的社交信息，存在着一定的问题：效率低：分析人员依靠人工单社交应用操作，无法在多个社交应用的所有信息中进行划分，这样对划分结果的整合，存在一定时间的延时，大大降低的划分的效率；划分粒度大：对于社交信息的划分，划分参照关键词固定单一，使得划分结果模糊不精确。因此，需要一种对社交信息数据进行高效率划分的系统和方法。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种基于社交信息数据的划分系统及方法，其对接收的不同社交媒体的网络信息进行按条件分类显示，方便使用人员更直观的对不同社交媒体的网络信息进行审查。

为了实现根据本发明的这些目的和其它优点，提供了一种基于社交信息数据的划分系统，包括：

数据采集装置，周期性采集社交媒体的社交数据，其包括文字内容及其点赞数量、转发数量、评论数量、多媒体文件对应的链接；

数据解析装置，解析社交数据，获取社交信息并进行唯一标识；

数据去重装置，根据所述社交信息的标识进行去重处理；

多媒体数据转换装置，将去重后的社交信息的多媒体文件提取链接；

海量对象存储装置，存储去重后的社交信息；

基本数据存储装置，存储去重后的社交信息的标识；

分词装置，将去重后的社交信息划分成多个关键词，通过散列计算得到每个关键词的hash值；

全文检索装置，将划分的关键词汇总、去重、并根据分词装置计算的关键词的hash值建立索引，记录含有每个关键词的所有社交信息的标识并存储。

优选的是，还包括：

输入装置，用于设置类别名称以及下属关键词并存储于所述基本数据存储装置，用于设置包含有类别名称的筛选条件；

条件转换装置，根据所述筛选条件发送相应的查询请求；

分析过滤装置，根据所述查询请求通过散列计算所述类别名称下属每个关键词的hash值，在所述全文检索装置查询，获得每个关键词的所对应社交信息的标识，根据标识在所述海量对象存储装置查询每个关键词对应的社交信息；

结果处理装置，将所有关键词查询到的社交信息按照预设的显示规则整合；

输出装置，输出并显示符合筛选条件的社交信息结果。

优选的是，还包括：

类别新增装置，用于增加类别名称以及增加下属关键词；

类别修改装置，用于修改类别名称以及修改下属关键词；

类别删除装置，用于删除类别名称以及删除下属关键词；

任务调度装置，响应于所述输入装置的类别的操作类型的请求并分发给所述类别新增装置、类别修改装置或类别删除装置。

基于社交信息数据的划分方法，包括：

周期性采集社交媒体的社交数据，其包括文字内容及其点赞数量、转发数量、评论数量、多媒体文件对应的链接，解析社交数据，获取社交信息并进行唯一标识，根据所述社交信息的标识进行去重处理；

将去重后的社交信息的多媒体文件提取链接，存储去重后的社交信息，存储去重后的社交信息的标识；

将去重后的社交信息划分成多个关键词，散列计算hash值，将划分的关键词汇总、去重、存储hash值并建立索引，记录含有每个关键词的所有社交信息的标识并存储。

优选的是，还包括：

设置类别名称以及下属关键词并存储，设置包含有类别名称的筛选条件，根据所述筛选条件发送相应的查询请求；

根据所述查询请求计算所述类别名称下属每个关键词的hash值，在所述全文检索装置查询，获得每个关键词的所有社交信息的标识，根据标识查询每个关键词对应的社交信息；

将所有关键词查询到的社交信息按照预设的显示规则整合，输出并显示符合筛选条件的社交信息结果。

优选的是，设置类别名称时，操作类型包括新增、修改和删除，其中，前两种操作类型需校验类别名称。

电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述的方法。

存储介质，其上存储有计算机程序，该程序被处理器执行时，实现所述的方法。

本发明至少包括以下有益效果：

第一、本发明通过数据采集、解析、去重，获得符合设计要求的社交信息数据类型，对含有多媒体数据的社交信息进行转化、复位，将社交信息海量存储、社交信息的标识汇总存储，将关键词建立索引形成映射关系快速查询，实现快速划分和准确查询，对接收的不同社交媒体的网络信息进行按条件分类显示，方便使用人员更直观的对不同社交媒体的网络信息进行审查。

第二、本发明可以自定义类别名称及参照关键词，类别可以定义多个，每个类别下参照关键词可以定义多个，可以根据语法指定不同关键词之间并集交集的关系，从而缩小对社交信息数据划分的细度；可以实现对采集到的社交信息无论长短进行分词并对分词结果建立检索的索引，从而实现划分的速度和准确性；可以实现对分类的结果按照账号类型、发言时间和区域进行筛选，将划分结果根据不同维度的显示，显示时高亮显示类别所含关键词，从而实现数据划分准确性的初步验证。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的一种技术方案的入库示意图；

图2为本发明的一种技术方案的应用示意图；

图3为本发明的一种技术方案的分类维护示意图；

图4为本发明的一种技术方案的入库方法示意图；

图5为本发明的一种技术方案的应用方法示意图；

图6为本发明的一种技术方案的分类维护方法示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得。

如图1所示，本发明提供一种基于社交信息数据的划分系统，包括：

数据采集装置101，周期性采集社交媒体的社交数据，其包括文字内容及其点赞数量、转发数量、评论数量、多媒体文件对应的链接，多媒体文件的形式包括但不局限于图片、视频、音频等，社交媒体包括微信、微博、Twitter、Facebook、Instagram和Google+等，通过采集(例如搜索入口检索)或购买原始数据的方式，原始数据包括但不局限于作者ID、作者头像、发表时间、文字信息内容、图片或音频或视频等，采集到社交数据后会做初步处理，例如，原始数据为网页信息，包含标签(页面元素)等冗余数据，数据采集装置101进行初步过滤，将原始数据去掉标签等冗余数据；

数据解析装置102，解析社交数据，进行二次过滤，例如，采集得到的信息发布时间对应的是publishDate，而系统中用到的是publishTime，也就是说字段名不统一，修改相关属性类型，修改属性命名，得到格式化的符合指定数据类型的属性数据，例如，采集获取到的时间是字符串类型”2020-04-20 16:52:49”，实际为了便于存储会转换成长整型1587372761540，又如采集对于某一属性的命名或许和要求的命名不符需要在这里做修改，得到格式化的符合要求的数据类型，获取社交信息并进行唯一标识，包括但不局限于点赞数、转发数、评论数等基本属性信息；

数据解析装置103，补充历史数据或由于采集服务器宕机重启，会造成部分数据的重复采集，根据所述社交信息的标识进行去重处理，去除重复社交信息；

多媒体数据转换装置104，针对文字+图片、文字+音频、文字+视频的社交信息，为文字+多媒体的链接，将去重后的社交信息的多媒体文件从链接中提取链接，由于境外网站上的多媒体对应的链接国内无法访问，针对此类链接添加国内访问代理，加上一层代理类似于vpn，这样的话图片视频等都可以看到；

海量对象存储装置105，存储去重后的社交信息，包括不限于点赞数、转发数、评论数及其多媒体对应的链接；

基本数据存储装置106，其存储容量小于所述海量对象存储装置105，可以进行分区处理，存储去重后的社交信息的标识；

分词装置107，将去重后的社交信息进行分词划分成多个关键词，应用现有的第三方分词技术获得成熟的、理想的分词效果，通过散列计算得到每个关键词的hash值；将社交信息内容进行分词，并对分词的结果通过散列计算的到一个hash值，全文检索装置108存储该hash值，当发出查询请求的时候，根据所述类别下的关键词通过相同的散列计算得到一个hash值，通过这个值与全文检索装置108的hash值匹配，若匹配成功，进一步得到全文检索装置108存储的这个hash值所对应的社交信息的标识；

举例：社交信息1.湖北加油，中国加油；社交信息2.四川省会是成都；社交信息1唯一标志：000001，社交信息2唯一标识000002；分词器分词结果：湖北，省会，中国，加油，四川，是，成都；散列计算索引值：湖北-101，省会-302，中国-666，加油-333，四川-279，是-537，成都-998；全文检索将这些值都存储起来，社交信息唯一标识和散列计算索引值不是一回事，社交信息唯一标志是网站生产的，散列计算分词的索引值是分词器计算的，但是都不能重复；分析过滤装置：根据请求类别假如城市：下属关键词成都，上海，北京，开始过滤，计算上海-807，成都-998，北京-001，998匹配，进而找到社交信息2所对应的唯一标识000002，再根据000002去含量数据存储装置找具体内容四川省会是成都；

全文检索装置108，其存储容量小于所述海量对象存储装置105，由于不同的社交信息分词后会出现关键词重合的问题，将划分的关键词汇总、去重、并根据分词装置计算的关键词的hash值建立索引，记录含有每个关键词的所有社交信息的标识并存储，例如以编号的方式存储关键词索引，方便快速查找关键词，快速获取社交信息标识。

在上述技术方案中，通过数据采集、解析、去重，获得符合设计要求的社交信息数据类型，对含有多媒体数据的社交信息进行转化、复位，将社交信息海量存储、社交信息的标识汇总存储，将关键词建立索引形成映射关系快速查询，实现快速划分和准确查询。

如图2所示，在另一种技术方案中，还包括：

输入装置201，用于设置类别名称以及下属关键词并存储于所述基本数据存储装置106，用户键入的方式进行设置，每个类别名称的下属关键词的数量为一个或多个，用于设置包含有类别名称的筛选条件；

条件转换装置202，根据所述筛选条件发送相应的查询请求，例如将类别名称、时间等筛选条件转换成具体下属关键词、拼接时间的精确的筛选条件并生成相应的查询语句；

分析过滤装置203，主要包含两个功能，第一，通过精确的筛选条件检索社交信息的唯一标识，第二，根据唯一标识查询具体的社交信息内容，具体为：根据所述查询请求通过散列计算所述类别名称下属每个关键词的hash值，在所述全文检索装置108查询，一个与关键词相同的索引对应多个社交信息标识，获得每个关键词的所对应社交信息的标识，根据标识在所述海量对象存储装置105查询每个关键词对应的具体社交信息；

结果处理装置204，将所有关键词查询到的社交信息按照预设的显示规则整合，预设的显示规则可以人为设定，例如根据不同的社交媒体进行标记，或者根据发表时间进行显示，或者不同的关键词进行标记，标记的方式可采用下划线、高亮、字体放大等方式进行区别；

输出装置205，输出并显示符合筛选条件的社交信息结果。

在上述技术方案中，可以自定义类别名称及参照关键词，类别可以定义多个，每个类别下参照关键词可以定义多个，可以根据语法指定不同关键词之间并集交集的关系，从而缩小对社交信息数据划分的细度；可以实现对采集到的社交信息无论长短进行分词并对分词结果建立检索的索引，从而实现划分的速度和准确性；可以实现对分类的结果按照账号类型、发言时间和区域进行筛选，将划分结果根据不同维度的显示，显示时高亮显示类别所含关键词，从而实现数据划分准确性的初步验证。

上述技术方案将所有社交app上的信息整合后在划分，整合时标注出不同的社交app标识，比如推特是11，fb是12，sina是13…，这样划分后可以查看需要的社交app上的划分结果，比如查看推特的11，查看推特和脸书的11&12，查看所有社交app的11&12&13；先整合后划分只需要查询一次就出结果提高工作效率，此外，粒度上，类别名称只是一个代号，具体划分依据是下属关键词，比如类别名称叫城市，关键词是成都&上海&武汉&北京这样的话划分结果只是包含这四个城市名称的信息，此时类别名称可以不叫城市，可以叫成上武京，另外新建另一个类别，叫广杭重，关键词是广州&上海&重庆，那划分结果就是包含这三个城市名称的信息，划分粒度更细，划分结果更加准确。

如图3所示，在另一种技术方案中，还包括：

类别新增装置302，用于增加类别名称以及增加下属关键词；

类别修改装置303，用于修改类别名称以及修改下属关键词；

类别删除装置304，用于删除类别名称以及删除下属关键词；

任务调度装置301，响应于所述输入装置201的类别的操作类型的请求并分发给所述类别新增装置302、类别修改装置303或类别删除装置304，存储于所述基本数据存储装置106。

在上述技术方案中，能够根据用户需求分类并自定义类别名称以及下属关键词，覆盖大多数操作类型，具有更好的用户体验效果。

如图4所示，本发明提供一种基于社交信息数据的划分方法，包括：

周期性采集社交媒体的社交数据，其包括文字内容及其点赞数量、转发数量、评论数量、多媒体文件对应的链接，初步过滤数据，通过正则解析的方式解析社交数据，二次过滤数据，解析出不同社交网络信息的标识、信息的序号、信息的内容、信息的媒体类型等，对不同的媒体类型数据加以标记，将采集到的原始数据转化成符合规范的数据格式，获取社交信息并进行唯一标识，根据所述社交信息的标识进行去重处理，将信息的标识和信息所属媒体类型通过特殊字符连接，通过散列算法(见算法说明①)计算hash值，并将该值作为信息的唯一标识；通过该唯一标识判断缓存系统(如非关系型数据库)是否已经存在，如果存在淘汰，如果不存在保留；

将去重后的社交信息的多媒体文件提取链接，具体为：将含有多媒体类型(图片/视频/音频)的信息中相关的语音、视频和图片等链接提取，做相应的处理生成新的地址，并结合信息唯一标识以key-value的形式上传，存储去重后的社交信息，存储去重后的社交信息的标识；

将去重后的社交信息划分成多个关键词，散列计算hash值，将划分的关键词汇总、去重、存储hash值并建立索引，用于之后进行索引建立和快速检索，记录含有每个关键词的所有社交信息的标识并存储，将处理结果入库，其中具体网络信息内容存储海量信息存储装置，网络信息唯一标识存储基本数据存储装置106，社交信息分词索引结果存储全文索引装置。

如图5所示，在另一种技术方案中，还包括：

用户可以通过键入的等方式输入类别划分的多维度条件，设置类别名称以及下属关键词并存储，设置包含有类别名称的筛选条件，将操作者输入的粗粒度的划分条件，转换为更加细粒度的划分条件，比如通过键入的类别名称，转换为具体类别所含关键词，根据所述筛选条件发送相应的查询请求；

根据所述查询请求计算所述类别名称下属每个关键词的hash值，在所述全文检索装置108查询，将细粒度的检索条件检索所属类别信息标识，获得每个关键词的所有社交信息的标识，根据标识查询每个关键词对应的社交信息的详细信息；

将所有关键词查询到的社交信息按照预设的显示规则整合，例如类别关键词高亮显示等处理，输出并显示符合筛选条件的社交信息结果。

在上述技术方案中，可以自定义类别名称及参照关键词，类别可以定义多个，每个类别下参照关键词可以定义多个，可以根据语法指定不同关键词之间并集交集的关系，从而缩小对社交信息数据划分的细度；可以实现对采集到的社交信息无论长短进行分词并对分词结果建立检索的索引，从而实现划分的速度和准确性；可以实现对分类的结果按照账号类型、发言时间进行筛选，将划分结果根据不同维度的显示，显示时高亮显示类别所含关键词，从而实现数据划分准确性的初步验证。

对接收的不同社交媒体的网络信息进行按条件分类显示，方便使用人员更直观的对不同社交媒体的网络信息进行审查。

如图6所示，在另一种技术方案中，设置类别名称时，操作类型包括新增、修改和删除，判断操作类型，实现任务的分发，其中，前两种操作类型需校验类别名称，具体为判断类别的名称是否存在，类别所含关键词语法是否正确等，如果通过校验则新增或修改类别信息入库，最后一种操作判断类别的名称是否存在，如果存在则将其删除。无论是新增/修改操作，还是删除操作，无论操作是否成功，都给出相应的结果提示。

存储介质，其上存储有计算机程序，该程序被处理器执行时，实现权任一项所述的方法。

算法说明①：

散列算法使用MurMurHash散列算法；该算法是一种非对称加密哈希算法，在性能方面与传统的MD5，CRC32，SHA-1等算法相比具备一定优势，而且碰撞率比较低。

伪代码：

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于社交信息数据的划分系统，其特征在于，包括：

数据采集装置，社交媒体包括微信、微博、Twitter、Facebook和Instagram，周期性采集社交媒体的社交数据，其包括文字内容及其点赞数量、转发数量、评论数量、多媒体文件对应的链接；

数据去重装置，根据所述社交信息的标识进行去重处理；

海量对象存储装置，存储去重后的社交信息；

基本数据存储装置，存储去重后的社交信息的标识；

全文检索装置，将划分的关键词汇总及去重、并根据分词装置计算的关键词的hash值建立索引，记录含有每个关键词的所有社交信息的标识并存储；

条件转换装置，根据所述筛选条件发送相应的查询请求；

输出装置，输出并显示符合筛选条件的社交信息结果；

在整合所述社交媒体数据时，标注出所述社交信息属于不同的社交媒体标识；

还包括：

类别新增装置，用于增加类别名称以及增加下属关键词；

类别修改装置，用于修改类别名称以及修改下属关键词；

类别删除装置，用于删除类别名称以及删除下属关键词；

2.基于社交信息数据的划分方法，其特征在于，包括：

周期性采集社交媒体的社交数据，所述社交媒体包括微信、微博、Twitter、Facebook和Instagram，所述社交数据包括文字内容及其点赞数量、转发数量、评论数量、多媒体文件对应的链接，解析社交数据，获取社交信息并进行唯一标识，根据所述社交信息的标识进行去重处理；

在整合所述社交媒体数据时，标注出所述社交信息属于不同的社交媒体标识，设置类别名称时，操作类型包括新增类别名称以及增加下属关键词、修改类别名称以及修改下属关键词和删除类别名称以及删除下属关键词，其中，前两种操作类型需校验类别名称；

将去重后的社交信息划分成多个关键词，散列计算得到每个关键词的hash值，将划分的关键词汇总及去重、存储关键词的hash值并建立索引，记录含有每个关键词的所有社交信息的标识并存储；

还包括：

根据所述查询请求计算所述类别名称下属每个关键词的hash值，查询，获得每个关键词的所有社交信息的标识，根据标识查询每个关键词对应的社交信息；

3.电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求2所述的方法。

4.存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要2所述的方法。