CN108846014B

CN108846014B - 一种数据需求满足方法

Info

Publication number: CN108846014B
Application number: CN201810420145.5A
Authority: CN
Inventors: 崔占华; 左晓栋; 王石; 杨晨; 张弛; 刘雨桁; 周亚超
Original assignee: China Information Safety Research Institute Co ltd
Current assignee: China Information Safety Research Institute Co ltd
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2023-07-25
Anticipated expiration: 2038-05-04
Also published as: CN108846014A

Abstract

本发明涉及一种数据需求满足方法，所述方法包括：S1：对数据需求进行分析以获取所述数据需求的分类；S2：基于所述数据需求的分类确定进行数据获取的数据源；S3：从所述数据源获取所需要的数据。本发明能够对数据需求进行多个层次的分析以获取所述数据需求的分类，基于所述分类来挑选进行数据获取的获取源，使得容易挑选出和主题密切相关的数据，大大的提高了精准度。

Description

一种数据需求满足方法

【技术领域】

本发明属于数据分析领域，尤其涉及一种数据需求满足方法。

【背景技术】

随着互联网技术的快速发展，大数据的应用越来越多。在大数据场景下，数据采集的需求逐渐增加。在现有技术中，当需要某种主题的数据时，多是通过非定向爬虫从互联网中获取海量数据，然后以获取到的海量数据为基础，通过复杂的数据匹配算法，筛选出与主题相关的数据。这种方法存在一定的缺点，基础数据的数据量太大，非相关数据占比较高，往往很难正确挑选出与主题密切相关的数据，精准度较低。在大数据时代，呈现的数据价值密度较低。基于上述诸多问题，现在亟需一种新的数据需求满足方法，本发明能够对数据需求进行多个层次的分析以获取所述数据需求的分类，基于所述分类来挑选进行数据获取的获取源，使得容易挑选出和主题密切相关的数据，大大的提高了精准度。

【发明内容】

为了解决现有技术中的上述问题，本发明提出了一种数据需求满足方法，该方法包括如下步骤：

S1：对数据需求进行分析以获取所述数据需求的分类；

S2：基于所述数据需求的分类确定进行数据获取的数据源；

S3：从所述数据源获取所需要的数据。

进一步的，所述步骤S1具体为，将数据需求进行初级划分以获取初级需求元素，基于所述初级需求元素获取所述数据需求的初级分类；将所述数据需求和历史数据需求作比较以获取所述数据需求的高级分类；基于所述初级分类和高级分类确定所述数据需求的分类。

进一步的，所述将数据需求进行初级划分以获取初级需求元素，具体为：将所述数据需求按照最小划分原则划分成一个或者多个初级需求元素。

进一步的，所述按照最小划分原则划分，具体为：所述数据需求为需求语句，将所述需求语句划分成多一个或多个关键词，并剔除所述需求语句中的语气词和承接词；并将所述关键词作为初级需求元素。

进一步的，所述基于所述初级需求元素获取所述数据需求的初级分类，具体为：分别确定所有初级需求元素对应的初级分类，获取对应初级需求元素最多的初级分类作为所述数据需求的初级分类。

进一步的，每个初级需求元素都有其对应的初级分类。

进一步的，所述将所述数据需求和历史数据需求作比较以获取所述数据需求的高级分类，具体为：计算所述数据需求和每个历史数据需求之间的相似度，当所述相似度大于等于第一相似度阈值时，将所述历史数据需求的分类作为所述数据需求的高级分类。

进一步的，所述计算所述数据需求和每个历史数据需求之间的相似度，具体为：获取所述数据需求和所述每个历史数据需求之间包含相同的字的个数N，获取所述数据需求的长度L1和所述每个历史数据需求的长度L2，基于下式计算所述相似度SIM；SIM＝N/(1+(L2-L1)²)。

进一步的，所述基于所述初级分类和高级分类确定所述数据需求的分类，具体为：将所述历史数据需求按照出现次数从大到小排序，获取所述初级分类和高级分类在所述排序中的位置，将所述初级分类和高级分类中排序位置靠前的分类作为所述数据需求的分类。

本发明的有益效果包括：能够对数据需求进行多个层次的分析以获取所述数据需求的分类，基于所述分类来挑选进行数据获取的获取源，使得容易挑选出和主题密切相关的数据，大大的提高了精准度。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1是本发明的数据需求满足方法的流程图。

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

对本发明所应用的一种数据需求满足方法进行详细说明，所述方法包含下述步骤：

S1:接收数据需求进行分析以获取所述数据需求的分类；具体的：将数据需求进行初级划分以获取初级需求元素，基于所述初级需求元素获取所述数据需求的初级分类；将所述数据需求和历史数据需求作比较以获取所述数据需求的高级分类；基于所述初级分类和高级分类确定所述数据需求的分类；

所述将数据需求进行初级划分以获取初级需求元素，具体为：将所述数据需求按照最小划分原则划分成一个或者多个初级需求元素；

所述按照最小划分原则划分，具体为：所述数据需求为需求语句，将所述需求语句划分成多一个或多个关键词，并剔除所述需求语句中的语气词和承接词；并将所述关键词作为初级需求元素；

所述基于所述初级需求元素获取所述数据需求的初级分类，具体为：分别确定所有初级需求元素对应的初级分类，获取对应初级需求元素最多的初级分类作为所述数据需求的初级分类；

每个初级需求元素都有其对应的初级分类；例如：治疗对应医学分类；

所述将所述数据需求和历史数据需求作比较以获取所述数据需求的高级分类，具体为：计算所述数据需求和每个历史数据需求之间的相似度，当所述相似度大于等于第一相似度阈值时，将所述历史数据需求的分类作为所述数据需求的高级分类；

优选的：所述第一相似度阈值为预设值；

所述计算所述数据需求和每个历史数据需求之间的相似度，具体为：获取所述数据需求和所述每个历史数据需求之间包含相同的字的个数N，获取所述数据需求的长度L1和所述每个历史数据需求的长度L2，基于下式计算所述相似度SIM；SIM＝N/(1+(L2-L1)²)；

所述基于所述初级分类和高级分类确定所述数据需求的分类，具体为：将所述历史数据需求按照出现次数从大到小排序，获取所述初级分类和高级分类在所述排序中的位置，将所述初级分类和高级分类中排序位置靠前的分类作为所述数据需求的分类；

S2：基于所述数据需求的分类获取优化获取源集合；具体的：基于所述数据需求的分类确定获取源集合，对所述获取源集合进行优化以获取优化获取源集合；

所述基于所述数据需求的分类确定获取源集合，具体为：基于所述数据需求分类查询对应关系表以获取和所述分类对应的获取源集合；

所述对应关系表中保存每种数据需求分类及其对应的获取源集合；所述对应关系表为通过定期对获取源的分类及其中包含的数据的分类进行分析后填写；例如：医疗分类对应医疗类论坛及医院门户网站等获取源；

其中：所述获取源为获取数据需求中所需求的数据的获取源；

所述优化为增加或者删除获取源集合中的获取源；

所述对所述获取源集合进行优化以获取优化获取源集合，具体为：根据第一用户属性对所述获取源集合进行优化；

所述根据第一用户属性对所述获取源集合进行优化，具体为：基于所述第一用户属性计算所述用户的深入度，如果所述深入度小于第一深入度阈值，则在所述获取源集合中增加通用获取源；否则，如果所述深入度大于第二深入度阈值，则在所述获取源集合中减少通用获取源；否则，不对所述获取源集合作处理；其中：所述通用获取源为通用搜索引擎，例如：百度等；

所述在所述获取源集合中增加通用获取源，具体为：基于数据需求对所述通用获取源进行定制，并将定制后的通用获取源添加到所述获取源集合中；

所述对所述通用获取源进行定制，具体为：将所述通用获取源的数据获取限定在所述数据需求的分类范围内；

所述在所述获取源集合中减少通用获取源，具体为：在所述获取源集合中删除通用获取源；

所述删除通用获取源，具体为：删除所述获取源集合中的所有通用获取源；

所述基于所述第一用户属性计算所述用户的深入度，具体为：所述第一用户属性为用户针对所述数据需求的分类进行数据获取的累积时间长度TL，用户获取数据的熟练程度SK，用户的文化程度GL，基于下式计算所述深入度DG；

其中BSTL为针对TL的基准调整值；

优选的：所述第一深入度阈值和第二深入度阈值均为预设值；

S3：基于所述优化获取源集合获取深度获取源集合；具体的：根据第二用户属性对所述优化获取源集合进行深度优化；

所述根据第二用户属性对所述优化获取源集合进行深度优化，具体为：基于所述第二用户属性计算所述用户的学习度，如果所述学习度小于第一学习度阈值，则将所述优化获取源的个数限定为指定个数；如果学习度大于第一学习度阈值，则将所述优化获取源的个数限定为指定个数和附加个数之和；

优选的：所述第一学习度阈值为预设值，所述预设值为根据用户的使用体验进行动态调整；

优选的：所述第一用户属性和第二用户属性完全不同；可替换的：所述第一用户属性和第二用户属性部分相同；

所述基于所述第二用户属性计算所述用户的学习度，具体为：所述第二用户属性包括用户年龄AGE，用户的文化程度GL，针对同一数据需求的平均学习时间AT，基于下式计算所述学习度LD；

其中:BS_AT为针对AT的基准调整值；

其中:FA为预设值；优选的FA＝1；W为调整值，W小于1；优选的：W＝‐0.8；

AGE1和AGE2为预设值；优选的：AGE1＝15.7；AGE2＝58；

所述AGE1和AGE2为根据大数据分析得到，具体的：通过分析不同年龄段用户的学习能力，得到学习能力随时间变化的两个临界值，在所述两个临界值中间区域，所述学习能力是可以接收的，而在临界值外的区域，所述学习能力明显降低，分别将所述两个临界值对应的用户年龄作为AGE1和AGE2的预设值；

优选的：随着用户素质的整体提高，所述AGE1和AGE2也随之更新；

优选的：针对不同数据需求的分类区分性的设置不同的AGE1和AGE2的值；由于针对不同的数据需求，用户的学习能力是不同的，例如：对于游戏知识，年纪小的用户有较强的学习能力，而反之亦然；

优选的：所述指定个数为根据大数据分析区域化人均学习能力得到；例如：指定个数为10；

优选的：所述指定个数随着优化获取源集合中包含的获取源的类型进行动态调整；当优化获取源集合中包含通用获取源时，将所述指定个数设置为较小的值，反之亦然；

优选的：所述附加个数为根据所述用户的学习度计算得到；基于下式计算所述附加个数ADN；当用户的学习度增加时，其对数据的学习速度越来越快，同时，有用的数据随之很快的变少，很多数据已经学习过了，因此要大量的增加获取源的个数使得用户能够随时间的退役获取所需要的数据；

S4：基于所述数据需求和深度获取源集合获取所需求的数据；具体的；将所述数据需求发送到所述多个获取源，所述多个获取源基于所述数据需求获取所需要的数据，从所述多个获取源接收数据；基于所述接收到的数据得到所需求的数据，将得到的所需求的数据呈现给用户；

所述将所述数据需求发送到所述多个获取源，具体为：将所述数据需求发送到所述多个获取源的每一个；

所述多个获取源基于所述数据需求获取所需要的数据，具体为：每个获取源基于所述数据需求在获取源中进行数据获取，如果所获取数据的数据量小于数据量阈值，所述获取源发出分类不匹配反馈；所述分配不匹配反馈指示所述获取源和所述数据需求的分类不匹配；

优选的：基于所述不匹配反馈对数据需求的分类和获取源集合之间的对应关系表进行更新；从而减少或者阻止将所述数据需求的获取请求发送到所述不匹配的获取源；

所述从所述多个获取源接收数据，具体为：如果在预定时间间隔内从一获取源接收到数据，则将所述数据放入缓存中，否则，停止对所述获取源获取的数据的接收；

所述将所述数据放入缓存中，具体为：将从每个获取源接收的数据按照获取源标识进行区分性的放入，将所述获取源标识和从所述获取源接收到的数据条数关联放入；通过区分性的放入以支持多个获取源的数据的并行接收，从而提高数据接收的效率；

所述基于所述接收到的数据得到所需求的数据，具体为：获取从所述获取源接收到的数据条数，获取每个获取源的数据条目总量，所接收到的平均数据条数；根据下式计算需要为第i个获取源保留的数据条数REVi，保留所述需要保留的数据条数而删除其它的数据条数；

REVi＝(NUMi+((AVER-NUMi)/NUMi))×(NUMi/REALLi)²；

其中：NUMi标识从第i个获取源所获取的数据条数；REALLi为第i个获取源的数据条目总量；AVER为所接收到的平均数据条数；

由于用户实际阅读量非常有限，而保留所有的数据显然是非常浪费空间的，因此需要对来自每个获取源的数据进行区分性的删除和保留以提高存储和使用效率；为专用获取源保留较多的条目，为通用获取源保留最重要的条目，从而大大的提高了用户体验；

所述将得到的所需求的数据呈现给用户，具体为：将数据按照其获取源的不同进行区分性呈现，通过关联的呈现相应的获取源标识以加强所述区分性呈现；

优选的：将多个获取源的数据条目进行依次交叉呈现；每轮呈现中每个获取源仅呈现预定数量的数据条目；

以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

Claims

1.一种数据需求满足方法，其特征在于，该方法包括如下步骤：

S1：对数据需求进行分析以获取所述数据需求的分类；

S2：基于所述数据需求的分类确定进行数据获取的数据源；

S3：从所述数据源获取所需要的数据；

所述步骤S1具体为，将数据需求进行初级划分以获取初级需求元素，基于所述初级需求元素获取所述数据需求的初级分类；将所述数据需求和历史数据需求作比较以获取所述数据需求的高级分类；基于所述初级分类和高级分类确定所述数据需求的分类；

每个初级需求元素都有其对应的初级分类；

所述计算所述数据需求和每个历史数据需求之间的相似度，具体为：

获取所述数据需求和所述每个历史数据需求之间包含相同的字的个数N，获取所述数据需求的长度L1和所述每个历史数据需求的长度L2，基于下式计算所述相似度SIM；SIM＝N/(1+(L2-L1)²)；

所述基于所述初级分类和高级分类确定所述数据需求的分类，具体为：将所述历史数据需求按照出现次数从大到小排序，获取所述初级分类和高级分类在所述排序中的位置，将所述初级分类和高级分类中排序位置靠前的分类作为所述数据需求的分类。