CN112256802A

CN112256802A - 一种海洋微生物信息的自动采集方法和设备

Info

Publication number: CN112256802A
Application number: CN202011123058.7A
Authority: CN
Inventors: 吴文涛
Original assignee: Weihai Shanghe Software Technology Co ltd
Current assignee: Weihai Shanghe Software Technology Co ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-22

Abstract

本发明公开了一种海洋微生物信息的自动采集方法和设备，所述方法包括：获取包含海洋微生物信息的待处理数据；将所述待处理数据进行过滤得到过滤数据，所述过滤包括一级过滤和二级过滤，所述过滤数据包括第一过滤数据和第二过滤数据，在数据仓库中对所述过滤数据进行解析建模并对所述数据仓库进行更新，从而实现了自动采集海洋微生物信息，并提高了数据的准确度。

Description

一种海洋微生物信息的自动采集方法和设备

技术领域

本申请涉及信息采集技术领域，更具体地，涉及一种海洋微生物信息的自动采集方法和设备。

背景技术

海洋微生物来自(或分离自)海洋环境，其正常生长需要海水，并可在寡营养、低温条件或高压、高温、高盐等极端环境下长期存活并能持续繁殖子代的微生物均可称为海洋微生物。海洋微生物主要包括真核微生物、原核微生物和无细胞生物。

研究海洋微生物，不仅可以为开发利用海洋微生物资源提供重要的参考依据，为人类提供更多更好的物质来源，还可以为人类了解生命起源和进化提供重要的线索，并改变了人们对海洋生态系统的传统理念，加速了海洋微生物学科的发展。

而研究海洋微生物则离不开对海洋微生物信息采集以及建模，采集是为了海洋微生物的全面性，减少遗漏，建模是方便后期查询，现有技术对海洋微生物信息的采集需要人为值守，且对采集到的数据进行标签解析或正则匹配提取其中的文字，之后按关键词字典对文字进行机械师或语义式或统计式的分词处理过滤有目标数据的内容，结果是文本形式的文件，无法对海洋微生物数据建立逻辑，且文本结果的物理模型过于扁平化，没有层次结构不方便对结果数据进行分析和查询，建模需要人工操作、费时费力且建模时的信息会有重复冗余的情况。

因此，如何自动采集海洋微生物信息并提高数据准确度，是目前有待解决的技术问题。

发明内容

本发明公开了一种海洋微生物信息的自动采集方法和设备，用于解决现有技术中无法自动采集海洋微生物信息且数据准确度不高的技术问题，所述方法包括：

获取包含海洋微生物信息的待处理数据；

将所述待处理数据进行过滤得到过滤数据，所述过滤包括一级过滤和二级过滤，所述过滤数据包括第一过滤数据和第二过滤数据，且；

在数据仓库中对所述过滤数据进行解析建模并对所述数据仓库进行更新。

一些实施例中，所述一级过滤，具体包括：

将所述待处理数据对应的来源url在所述数据仓库中进行比对；

若所述数据仓库中与所述来源url不存在相同url，则将所述待处理数据在所述数据仓库中进行解析建模；

若所述数据仓库中与所述来源url存在所述相同url，且所述相同url中的数字签名与所述来源url的数字签名一致，则将所述待处理数据进行删除；

若所述数据仓库中与所述来源url存在所述相同url，且所述相同url中的数字签名与所述来源url的数字签名不一致，则将所述待处理数据作为第一过滤数据并进行二级过滤。

一些实施例中，所述二级过滤，具体包括：

获取所述第一过滤数据在所述数据仓库中对应的模型模块；

若所述第一过滤数据的数字签名与所述模型模块的数字签名不相同，则基于所述第一过滤数据对所述模型模块进行更新；

若所述第一过滤数据的数字签名与所述模型模块的数字签名相同，则不对所述模型模块进行更新，并将所述第一过滤数据与所述数据仓库中的数据进行校验重复得到第二过滤数据。

一些实施例中，在数据仓库中对所述过滤数据进行解析建模，具体包括：

对所述过滤数据进行分词处理并获取属性值，所述属性值是基于海洋微生物模型的建模需求确定的；

将所述属性值封装成数据模块；

将所述数据模块封装成逻辑数据模型。

一些实施例中，所述获取包含海洋微生物信息的待处理数据，具体包括：

从预设的url中提取地址；

若所述地址中存在包含所述海洋微生物信息的原始数据，则将所述原始数据封装成预设格式的待处理数据。

相应的，本发明还公开了一种海洋微生物信息的自动采集设备，所述设备包括：

获取模块，获取包含海洋微生物信息的待处理数据；

过滤模块，将所述待处理数据进行过滤得到过滤数据，所述过滤包括一级过滤和二级过滤，所述过滤数据包括第一过滤数据和第二过滤数据；

解析模块，在数据仓库中对所述过滤数据进行解析建模并对所述数据仓库进行更新。

一些实施例中，所述过滤模块具体用于：

一些实施例中，所述过滤模块具体还用于：

获取所述第一过滤数据在所述数据仓库中对应的模型模块；

一些实施例中，所述解析模块具体用于：

将所述属性值封装成数据模块；

将所述数据模块封装成逻辑数据模型。

一些实施例中，所述获取模块具体用于：

从预设的url中提取地址；

与现有技术相比，本发明具有以下有益效果：

本发明公开了一种海洋微生物信息的自动采集方法和设备，所述方法包括：获取包含海洋微生物信息的待处理数据；将所述待处理数据进行过滤得到过滤数据，所述过滤包括一级过滤和二级过滤，所述过滤数据包括第一过滤数据和第二过滤数据，在数据仓库中对所述过滤数据进行解析建模并对所述数据仓库进行更新，同时对所述过滤数据进行分词处理并获取属性值，所述属性值是基于海洋微生物模型的建模需求确定的；将所述属性值封装成数据模块；将所述数据模块封装成逻辑数据模型，从而实现了自动采集海洋微生物信息，并重复信息进行过滤提高了数据的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种海洋微生物信息的自动采集方法的流程示意图；

图2示出了本发明另一实施例提出的一种海洋微生物信息的自动采集方法的流程示意图；

图3示出了本发明另一实施例中资源获取的流程示意图；

图4示出了本发明另一实施例中一级过滤的流程示意图；

图5示出了本发明另一实施例中二级过滤的流程示意图；

图6示出了本发明实施例提出的一种海洋微生物信息的自动采集设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

如背景技术所述，现有技术中，对海洋微生物信息的采集需要人为值守，且采集到的数据结果是文本形式的文件，无法对海洋微生物数据建立逻辑，同时文本结果的物理模型过于扁平化，没有层次结构不方便对结果数据进行分析和查询，建模需要人工操作、费时费力且建模时的信息会有重复冗余的情况。

为了解决上述问题，本申请提出了一种海洋微生物信息的自动采集方法，如图1所示，所述方法包括：

S101，获取包含海洋微生物信息的待处理数据。

本步骤中，获取包含海洋微生物信息的待处理数据，可选的，通过聚焦爬虫在互联网中搜寻带有海洋微生物信息的资源，并将搜索结果作为待处理数据。

为了准确的获得待处理数据，在一些实施例中，所述获取包含海洋微生物信息的待处理数据，具体包括：

从预设的url中提取地址；

具体的，url(Uniform Resource Locator，统一资源定位符)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。从预设的url中提取资源信息的地址，然后判断该地址的数据中是否存在包括海洋微生物信息的原始数据，若包括，则将该原始数据封装成预设格式的待处理数据。该预设的url和预设格式可以根据实际需要进行设定，可选的，若所述地址中不存在包含所述海洋微生物信息的原始数据，分析所述地址中是否有可跟进的url，若有，则将所述url加入到预设的url中。

需要说明的是，以上优选实施例的方案仅为本申请所提出的一种具体实现方案，其他获取包含海洋微生物信息的待处理数据的方法都属于本申请的保护范围。

S102，将所述待处理数据进行过滤得到过滤数据，所述过滤包括一级过滤和二级过滤，所述过滤数据包括第一过滤数据和第二过滤数据。

本步骤中，对所述待处理数据进行过滤是将待处理数据中的重复数据进行排除，过滤完成后得到过滤数据，该过滤过程包括一级过滤和二级过滤，对应的，经过一级过滤后的数据为第一过滤数据，经过二级过滤后的数据为第二过滤数据。

为了准确的完成一级过滤，在一些实施例中，所述一级过滤，具体包括：

具体的，一级过滤过程先将所述待处理数据对应的来源url在数据仓库中进行比对，当所述数据仓库中与所述待处理数据对应的来源url不存在相同的url时，由于互联网上的每个文件都有一个唯一的url，说明该待处理数据是新的数据，则将所述待处理数据在所述数据仓库中进行解析建模。

当所述数据仓库中与所述来源url存在所述相同url，且所述相同url中的数字签名与所述来源url的数字签名一致，该数字签名是附加在数据单元上的一些数据,或是对数据单元所作的密码变换，这种数据或变换允许数据单元的接收者用以确认数据单元的来源和数据单元的完整性，当数据签名和url都相同时，说明该待处理数据与数据仓库中的数据重复，则将所述待处理数据进行删除。

当所述数据仓库中与所述来源url存在所述相同url，且所述相同url中的数字签名与所述来源url的数字签名不一致，这时通过一级过滤并不能准确的判断出该待处理数据是否和数据仓库中的数据重复，则将所述待处理数据作为第一过滤数据并进行二级过滤。

需要说明的是，以上优选实施例的方案仅为本申请所提出的一种具体实现方案，其他将待处理数据进行一级过滤的方法都属于本申请的保护范围。

为了准确的完成二级过滤，在一些实施例中，所述二级过滤，具体包括：

获取所述第一过滤数据在所述数据仓库中对应的模型模块；

具体的，在进行二级过滤时，先获取所述第一过滤数据在所述数据仓库中对应的模型模块，当所述第一过滤数据的数字签名与所述模型模块的数字签名不相同，则基于所述第一过滤数据对所述模型模块进行更新。

当所述第一过滤数据的数字签名与所述模型模块的数字签名相同，则不对所述模型模块进行更新，此时为了避免一次操作出现误判，将所述第一过滤数据与所述数据仓库中的数据进行校验重复得到第二过滤数据。

需要说明的是，以上优选实施例的方案仅为本申请所提出的一种具体实现方案，其他将第一过滤数据进行二级过滤的方法都属于本申请的保护范围。

S103，在数据仓库中对所述过滤数据进行解析建模并对所述数据仓库进行更新。

本步骤中，在经过过滤处理后，在数据仓库中对所述过滤数据进行解析建模，并根据过滤数据更新数据仓库。

为了准确的对过滤数据进行解析建模，在一些实施例中，在数据仓库中对所述过滤数据进行解析建模，具体包括：

将所述属性值封装成数据模块；

将所述数据模块封装成逻辑数据模型。

具体的，在得到过滤数据后，先对过滤数据进行分词处理，可选的通过HMM模型的分词器对过滤数据进行分词，HMM(隐马尔可夫模型)是一种统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。然后根据海洋微生物模型的建模需求获取过滤数据的属性值。将属性值封装成数据模块，再把数据模块封装成逻辑数据模型。

需要说明的是，以上优选实施例的方案仅为本申请所提出的一种具体实现方案，其他在数据仓库中对所述过滤数据进行解析建模的方法都属于本申请的保护范围。

发明公开了一种海洋微生物信息的自动采集方法和设备，所述方法包括：获取包含海洋微生物信息的待处理数据；将所述待处理数据进行过滤得到过滤数据，所述过滤包括一级过滤和二级过滤，所述过滤数据包括第一过滤数据和第二过滤数据，在数据仓库中对所述过滤数据进行解析建模并对所述数据仓库进行更新，同时对所述过滤数据进行分词处理并获取属性值，所述属性值是基于海洋微生物模型的建模需求确定的；将所述属性值封装成数据模块；将所述数据模块封装成逻辑数据模型，从而实现了自动采集海洋微生物信息，并重复信息进行过滤提高了数据的准确度。

为了进一步阐述本发明的技术思想，如图2所示本发明另一实施例提出的一种海洋微生物信息的自动采集方法的流程示意图，所述方法具体步骤如下：

S201，资源获取。

具体的，通过聚焦爬虫在互联网中搜寻带有海洋微生物信息的资源，并将结果作为待处理数据保存到文件中。如图3所示为本实施例一种具体的待处理数据获取过程。开始①时从预设的url队列中取出地址②下载③其中的内容，下载完成后对内容进行分析④。如果包含预期的海洋微生物内容，将内容进行封装成有一定规则的文本⑤写入文件中⑥作为待处理数据；再分析下载的内容中是否有可跟进的url，如果有将url加入队列中⑤；然后将以上内容进行递归(②～⑥)直到队列中没有可用的url结束。

S202，监听待处理数据。

具体的，对资源获取的待处理数据的保存目录进行监听，资源获取的文件保存功能会在待处理数据保存完成后修改文件扩展名，当监听发现新文件时会把文件信息通知给系统进行数据过滤。

S203，数据过滤。

具体的，对海洋微生物信息建模之前验证数据是否与已经模型化的海洋微生物数据重复，数据过滤分两级，如图4与图5所示，一级过滤先将采集到的待处理数据来源的url到系统数据仓库中进行检索，如果没有匹配记录，说明是未入库的待处理数据对此条数据进行建模操作；如果有匹配的记录那么将本条待处理数据的数据签名与仓库中进行比较，如果数据签名一致代表是相同的数据信息，如果不同进入二级过滤。二级过滤时先对第一过滤数据进行数据分析，得出第一过滤数据对应的模型模块，再把第一过滤数据的数字签名与数据仓库中与第一过滤数据对应的模型模块的数字签名进行比对，判断是否需要更新模型模型，若一致，更新数据仓库中的模型模块，若不一致，不更新数据仓库中数据模型。

S204，解析建模。

具体的，基于HMM模型的分词器，按海洋微生物模型的建模要求提取属性值，把属性值封装成数据模块，再把数据模块封装结果成为逻辑数据模型。

S202，数据持久化。

具体的，将逻辑数据模型存储为物理数据模型形成持久化数据。

本发明公开了一种海洋微生物信息的自动采集方法，信息收集过程中可无人值守，且信息准确率高，能够把互联网中采集到的海洋微生物信息建模存储，解决现有网络采集无法对海洋微生物数据建模的问题，减少人力的重复性工作，提高了工作效率，同时对建模的数据进行两次比对过滤，有效地降低了数据的冗余，提高数据的正确性。

与本申请实施例中的海洋微生物信息的自动采集方法相对应，本申请实施例还提出了一种微生物信息的自动采集设备，如图6所示，所述设备包括：

获取模块601，获取包含海洋微生物信息的待处理数据；

过滤模块602，将所述待处理数据进行过滤得到过滤数据，所述过滤包括一级过滤和二级过滤，所述过滤数据包括第一过滤数据和第二过滤数据；

解析模块603，在数据仓库中对所述过滤数据进行解析建模并对所述数据仓库进行更新。

在本申请的具体应用场景中，所述过滤模块具体用于：

在本申请的具体应用场景中，所述过滤模块具体还用于：

获取所述第一过滤数据在所述数据仓库中对应的模型模块；

在本申请的具体应用场景中，所述解析模块具体用于：

将所述属性值封装成数据模块；

将所述数据模块封装成逻辑数据模型。

在本申请的具体应用场景中，所述获取模块具体用于：

从预设的url中提取地址；

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种海洋微生物信息的自动采集方法，其特征在于，所述方法包括：

获取包含海洋微生物信息的待处理数据；

将所述待处理数据进行过滤得到过滤数据，所述过滤包括一级过滤和二级过滤，所述过滤数据包括第一过滤数据和第二过滤数据；

2.如权利要求1所述的方法，其特征在于，所述一级过滤，具体包括：

3.如权利要求1所述的方法，其特征在于，所述二级过滤，具体包括：

获取所述第一过滤数据在所述数据仓库中对应的模型模块；

4.如权利要求1所述的方法，其特征在于，在数据仓库中对所述过滤数据进行解析建模，具体包括：

将所述属性值封装成数据模块；

将所述数据模块封装成逻辑数据模型。

5.如权利要求1所述的方法，其特征在于，所述获取包含海洋微生物信息的待处理数据，具体包括：

从预设的url中提取地址；

6.一种海洋微生物信息的自动采集设备，其特征在于，所述设备包括：

获取模块，获取包含海洋微生物信息的待处理数据；

7.如权利要求6所述的设备，其特征在于，所述过滤模块具体用于：

8.如权利要求6所述的设备，其特征在于，所述过滤模块具体还用于：

获取所述第一过滤数据在所述数据仓库中对应的模型模块；

9.如权利要求6所述的设备，其特征在于，所述解析模块具体用于：

将所述属性值封装成数据模块；

将所述数据模块封装成逻辑数据模型。

10.如权利要求6所述的设备，其特征在于，所述获取模块具体用于：

从预设的url中提取地址；