CN113343158A

CN113343158A - 一种筛选数据的提取与融合方法

Info

Publication number: CN113343158A
Application number: CN202110777707.3A
Authority: CN
Inventors: 张晓芬; 李巍; 金丰
Original assignee: Shunyi District Maternal And Child Health Center Of Beijing Municipality
Current assignee: Shunyi District Maternal And Child Health Center Of Beijing Municipality
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-09-03
Anticipated expiration: 2041-07-09
Also published as: CN113343158B

Abstract

本发明公开了一种筛选数据的提取与融合方法，特征在于，包括筛选数据的提取方法和筛选数据的融合方法；本发明方法通过将数据库的信息提取转化到的对应网站上进行筛选、提取出来，且通过网站的自动登录设置，实现自动筛选、提取目标数据，将筛选提取出来的数据分别进行融合、合并，放入到同一文件夹，自动且精准获取目标数据，有效的减少人力和时间成本，大大的提升了工作效率。

Description

一种筛选数据的提取与融合方法

本发明涉及信息学技术领域，具体是一种筛选数据的提取与融合方法。

背景技术

当我们需要通过对某领域的数据库进行一些数据的提取或者是对所提取的数据进行融合时，都需要进行繁多的操作步骤才能得到所需得目标数据，十分不便于各领域工作人员操作，而且工程量巨大，耗时耗力，鉴于此，本发明提供一种筛选数据的提取与融合方法。

发明内容

本发明所要解决的技术问题是提供一种筛选数据的提取与融合方法，可以有效解决上述背景技术中提出的问题。

为解决上述问题，本发明所采取的技术方案是：一种筛选数据的提取与融合方法，其特征在于，包括筛选数据的提取方法和筛选数据的融合方法；所述筛选数据的提取方法，包括如下步骤：

S1、确认需要筛查的目标数据，根据目标数据的类型选取对应的数据库；

S2、从数据库中查询目标数据的源基本信息，并将其提取出来，然后存储为csv格式，定义为源基本信息数据集；

S3、将需要筛查的目标数据对应的源网站设置到程序中，便于系统自动进行登陆访问；

S4、从源基本信息数据集中逐条读取数据，并逐一向指定的对应源网址发送数据请求，网站即返回网页信息：

4-1、当返回网页信息包含错误信息，则重复步骤S4进行读取数据；

4-2、当返回网页信息无错误信息，则继续进行下一步；

S5、系统对返回的网页信息进行解析，获取所需的目标数据信息，并将所需的目标数据信息存储到内存数据中，实现指定目标数据的筛查及收集；

S6、是否遍历完成所有的基本信息数据集：

6-1、是：获取了所有源基本信息数据集中对应的筛查数据信息，进入下一步；

6-2、否：遗漏了部分源基本信息数据集对应的筛查数据信息，返回步骤S6重新读取筛查数据；

S7、将提取的内存数据存入到csv格式文件中，定义为目标数据，得到目标数据的所有信息；

所述筛选数据的融合方法，其特征在于，包括所述筛选数据的提取方法，具体步骤如下：

A1、从源基本信息数据集中读取一条数据，表示为基本信息A，其中包含了登录需要的源基本信息；读取数据库，定义为数据N；读取目标数据，定义为目标数据S；

A2、将数据N与目标数据S通过合并算法，且按照三元组的格式进行融合，形成合并信息M；

A3、将基本信息A逐个与步骤A2的合并信息M进行拼接后存入合并数据集；

A4、是否遍历完成所有源基本信息数据集；

4-1、否：遗漏了部分源基本信息数据集对应的筛查数据信息，返回步骤A1重新读取；

4-2、是：获取了所有源基本信息数据集对应目标的筛查数据信息。

作为本发明的进一步优选方案，所述源基本信息为目标信息的母信息。

作为本发明的进一步优选方案，所述N包含每个元素n，且N为一个二元组，同样的S里包含每个元素s，且S为一个二元组。

作为本发明的进一步优选方案，所述二元组由name与value构成，其中name为数据的名称，value为测试的数值。

作为本发明的进一步优选方案，所述三元组的格式排列顺序为基因突变位点、数据N检测结果、目标数据S检测结果。

作为本发明的进一步优选方案，所述合并信息M为一条包含目标所有信息和两种数值的数据。

本发明另外还涉及一种筛选数据的设备，储存器、处理器，其中，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，实现如上述的一种筛选数据的提取与融合方法。

本发明另外还涉及一种可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如上述的一种筛选数据的提取与融合方法。

本发明另外还涉及一种筛选数据的系统，实现如上述的一种筛选数据的提取与融合方法，包括数据处理器、web服务器，所述数据处理器与web服务器无线连接；所述数据处理器用于接收网站数据，并对其进行处理，web服务器用于对网页信息进行查询、解析。

作为本发明的进一步优选方案，上述的一种筛选数据的系统，还包括处理模块、运算模块、检索模块；所述处理模块用于处理系统的数据交互；所述运算模块用于运算系统算法及数据算法；所述检索模块用于检索、解析网站的数据信息。

与现有技术相比，本发明提供了一种筛选数据的提取与融合方法，具备以下有益效果：

本发明方法通过将数据库的信息提取转化到的对应网站上进行筛选、提取出来，且通过网站的自动登录设置，实现自动筛选、提取目标数据，将筛选提取出来的数据分别进行融合、合并，放入到同一文件夹，自动且精准获取目标数据，有效的减少人力和时间成本，大大的提升了工作效率。

附图说明

图1为本发明数据提取与融合方法的流程图；

图2为本发明数据提取方法的流程图；

图3为本发明数据融合方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明提供一种筛选数据的提取与融合方法，包括一种筛选数据的提取方法，步骤如下：

一种筛选数据的提取与融合方法，其特征在于，包括筛选数据的提取方法和筛选数据的融合方法；所述筛选数据的提取方法，包括如下步骤：

S4、从源基本信息数据集中逐条读取数据，并逐一向指定的对应源网址发送数据请求，网站即返回网页信息；从源基本信息数据集中读取一组查询网站登录需要的信息，组成登录关键字，自动向指定网址发送数据请求，网站就会返回包含新生儿基因信息的网页数据；这样避免操作人员逐个登录网站进行基因信息查询：

4-2、当返回网页信息无错误信息，则继续进行下一步；实现指定新生儿筛查基因数据的自动化收集，避免人工进行逐行阅读和记录，有效较少人工操作时间；

S6、是否遍历完成所有的基本信息数据集：

S7、将提取的内存数据存入到csv格式文件中，定义为目标数据，得到目标数据的所有信息；这样就自动化的得到了传统方法对应的所有新生儿基因数据信息；全程只需要将查询网站网址设置到程序中，后续所有工作自动化的收集完成；

A1、从源基本信息数据集中读取一条数据，表示为基本信息A，其中包含了登录需要的源基本信息；读取数据库，定义为数据N；读取目标数据，定义为目标数据S；从源基本信息数据集中读取一条数据，表示为基本信息A，其中包含了登录需要的源基本信息；读取对应的新方法数据集，定义为新方法基因数据N，N包含每个元素n，且N为一个二元组(name,value)，name为基因的名称，value为基因的测试数值；读取对应标准方法数据集的数据信息，定义为传统方法基因数据S，同样的S里包含每个元素s，且S为一个二元组(name,value)，name为基因的名称，value为基因的测试数值；

A3、将基本信息A逐个与步骤A2的合并信息M进行拼接后存入合并数据集；这样可自动将两种不同方法对应同一个新生儿的所有新生儿基因信息合并放到一起，避免人工进行复杂的对比合并；

A4、是否遍历完成所有源基本信息数据集；

作为本发明的一个具体实施例：

本实施例以目标数据为新生儿耳聋基因筛查为例进行讲解，所述方法为非诊断目的的方法，主要包括以下步骤：

步骤一，确认需要筛查的目标为新生儿耳聋基因，根据新生儿耳聋基因的类型选取对应的数据库为新方法数据集；

步骤二，从新方法数据集中查询源基本信息，源基本信息为新生儿母亲的筛选编号、姓名、身份证号和受检日期，并将其提取出来，形成源基本信息数据集；

步骤三，设置新生儿耳聋基因对应的源网站，即新生儿耳聋基因筛查结果查询网站，只需要将查询网站网址设置到程序中，后续所有工作将自动化的收集；

步骤四，从源基本信息数据集中逐条读取新生儿母亲筛选编号和姓名，并自动发送到新生儿耳聋基因筛查结果查询网站进行数据请求：

4-1、如果返回的网页信息中包含错误信息，返回步骤四，读取下一条信息；

4-2、如果返回的网页信息没有错误信息，进入下一步；

步骤五、系统开始按照制定格式对网页信息进行解析，获取新生儿基因筛查信息，包括新生儿母亲筛选编号、姓名、身份证号、受检日期、基因突变位点1、基因突变位点2等信息，存入到内存数据中；避免人工进行逐行阅读和记录，有效减少人工操作时间；

步骤六，判断是否遍历完成基本数据集，完成则进入下一步；没有完成，返回重新完成步骤六；

步骤七，将提取的内存数据存入到csv格式文件中，形成目标数据，即为传统方法数据集；这样就自动化的得到了传统方法对应的所有新生儿基因数据信息；全程只需要将查询网站网址设置到程序中，后续所有工作自动化的收集完成；

数据提取完成，对提取的数据进行融合；方法如下：

步骤一，对数据信息进行融合，从源基本信息数据集中读取一条数据，表示为基本信息A，其中包含了登录需要的基本信息。读取对应的新方法数据集，定义为新方法基因数据N，N包含每个元素n，且N为一个二元组(name,value)，name为基因的名称，value为基因的测试数值；读取传统方法数据集的数据信息，定义为传统方法基因数据S，同样的S里包含每个元素s，且S为一个二元组(name,value)，name为基因的名称，value为基因的测试数值；通过加载源基本信息数据集、新方法数据集和传统方法基因数据集到内存中，新建合并数据集文件；

步骤二、通过上图所示的基因数据合并算法，对新方法和传统方法对应的基因数据信息进行合并；即三元组的格式；其中三元组的格式为基因突变位点，新方法检测结果，标准方法检测结果(即基因突变位点、数据N检测结果、目标数据S检测结果)；

步骤三、将一个新生儿对应的基本信息与基因合并信息进行拼接后存入合并数据集，这样可将两种不同方法对应同一个新生儿的所有新生儿基因信息合并放到一起，避免人工进行复杂的对比合并；

步骤四、判断是否遍历完基本信息数据集，如果完成，则结束；否则返回步骤一。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术方法进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种筛选数据的提取与融合方法，其特征在于，包括筛选数据的提取方法和筛选数据的融合方法；所述筛选数据的提取方法，包括如下步骤：

4-2、当返回网页信息无错误信息，则继续进行下一步；

S6、是否遍历完成所有的基本信息数据集：

A4、是否遍历完成所有源基本信息数据集；

2.根据权利要求1所述的一种筛选数据的提取与融合方法，其特征在于，所述源基本信息为目标信息的母信息。

3.根据权利要求1所述的一种筛选数据的提取与融合方法，其特征在于，所述N包含每个元素n，且N为一个二元组，同样的S里包含每个元素s，且S为一个二元组。

4.根据权利要求3所述的一种筛选数据的提取与融合方法，其特征在于，所述二元组由name与value构成，其中name为数据的名称，value为测试的数值。

5.根据权利要求1所述的一种筛选数据的提取与融合方法，其特征在于，所述三元组的格式排列顺序为基因突变位点、数据N检测结果、目标数据S检测结果。

6.根据权利要求1所述的一种筛选数据的提取与融合方法，其特征在于，所述合并信息M为一条包含目标所有信息和两种数值的数据。

7.一种筛选数据的设备，其特征在于，储存器、处理器，其中，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，实现如权利要求1-6的一种筛选数据的提取与融合方法。

8.一种可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1-6的一种筛选数据的提取与融合方法。

9.一种筛选数据的系统，用于实现如权利要求书1-6任一项所述的一种筛选数据的提取与融合方法，其特征在于，包括数据处理器、web服务器，所述数据处理器与web服务器无线连接；所述数据处理器用于接收网站数据，并对其进行处理，web服务器用于对网页信息进行查询、解析。

10.根据权利要求9所述的一种筛选数据的系统,其特征在于，还包括处理模块、运算模块、检索模块；所述处理模块用于处理系统的数据交互；所述运算模块用于运算系统算法及数据算法；所述检索模块用于检索、解析网站的数据信息。