CN111708931A - 基于移动互联网的大数据采集方法及人工智能云服务平台 - Google Patents
基于移动互联网的大数据采集方法及人工智能云服务平台 Download PDFInfo
- Publication number
- CN111708931A CN111708931A CN202010508584.9A CN202010508584A CN111708931A CN 111708931 A CN111708931 A CN 111708931A CN 202010508584 A CN202010508584 A CN 202010508584A CN 111708931 A CN111708931 A CN 111708931A
- Authority
- CN
- China
- Prior art keywords
- acquisition
- information
- page
- index
- data acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 147
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 108
- 238000004088 simulation Methods 0.000 claims description 127
- 238000013480 data collection Methods 0.000 claims description 43
- 230000004044 response Effects 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000009193 crawling Effects 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 79
- 230000006399 behavior Effects 0.000 description 77
- 230000003190 augmentative effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开实施例提供一种基于移动互联网的大数据采集方法及人工智能云服务平台,在获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与页面用户行为信息相匹配的互联网功能业务信息,并根据互联网功能业务信息以及与互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息,然后根据数据采集识别节点信息对数据采集脚本进行配置后,再执行大数据采集,从而可以在大数据采集过程中通过数据采集脚本对移动互联网终端进行对应的数据采集识别操作,进而提高大数据采集过程中的采集针对性和准确性,从一定程度上避免在大数据采集过程中可能会由于数据采集识别节点的噪声问题导致的采集数据的噪声引入。
Description
技术领域
本公开涉及大数据技术领域,具体而言,涉及一种基于移动互联网的大数据采集方法及人工智能云服务平台。
背景技术
随着移动互联网技术的快速发展,各种互联网访问行为增加,通过大数据采集可以为后续的用户画像分析提供数据支持。然而,传统的大数据采集方案中可能会存在诸多的数据采集识别节点的噪声问题,尤其是在大数据采集过程中可能会由于数据采集识别节点的噪声问题导致采集数据的噪声引入,从而影响大数据采集过程的采集针对性和准确性。
发明内容
为了至少克服现有技术中的上述不足,本公开的目的在于提供一种基于移动互联网的大数据采集方法及人工智能云服务平台,能够根据数据采集识别节点信息对数据采集脚本进行配置后,再执行大数据采集,从而可以在大数据采集过程中通过所述数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,进而提高大数据采集过程中的采集针对性和准确性,从一定程度上避免在大数据采集过程中可能会由于数据采集识别节点的噪声问题导致的采集数据的噪声引入。
第一方面,本公开提供一种基于移动互联网的大数据采集方法,应用于人工智能云服务平台,所述人工智能云服务平台与多个移动互联网终端通信连接,所述方法包括:
在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与所述页面用户行为信息相匹配的互联网功能业务信息,并根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息;
通过大数据采集控件将所述数据采集识别节点信息关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据所述数据采集识别节点信息对所述数据采集脚本进行配置后,执行大数据采集;
在大数据采集过程中通过所述数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,其中,在进行数据采集识别操作的过程中,通过所述数据上传路径持续根据获得的数据采集识别节点信息对所述数据采集脚本进行更新配置。
在第一方面的一种可能的实现方式中,所述在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与所述页面用户行为信息相匹配的互联网功能业务信息的步骤,包括:
从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息,所述页面用户行为信息包括参考互联网功能业务、业务采集板块数量、用户行为权限区间以及用户行为扩展权限区间;
确定所述页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值;
根据所述页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值确定与所述页面用户行为信息相匹配的互联网功能业务信息。
在第一方面的一种可能的实现方式中,所述根据所述页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值确定与所述页面用户行为信息相匹配的互联网功能业务信息的步骤,包括:
以业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值构建互联网功能业务矩阵,根据所述页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值,在所述互联网功能业务矩阵中确定所述页面用户行为信息对应的每个第一互联网功能业务;
根据每个所述参考互联网功能业务的业务特征向量,在所述互联网功能业务矩阵中确定每个参考互联网功能业务的业务特征区间;
根据每个参考互联网功能业务对应的业务特征区间,和预设的业务特征区间与初始业务访问频繁参数的对应关系,确定每个参考互联网功能业务的初始业务访问频繁参数;
针对所述每个参考互联网功能业务中包括的每个第一互联网功能业务,根据该第一互联网功能业务所属的参考互联网功能业务的初始业务访问频繁参数,确定该第一互联网功能业务的目标业务访问频繁参数;
根据每个第一互联网功能业务对应的预设业务采集板块数量、预设业务节点区间值和所述目标业务访问频繁参数,确定每个第一互联网功能业务所对应的目标业务节点区间值、目标业务采集板块数量值和目标用户行为扩展权限区间值;
根据每个第一互联网功能业务所对应的目标业务采集板块数量值、目标业务节点区间值和目标用户行为扩展权限区间值分别与所述页面用户行为信息中的业务采集板块数量、用户行为权限区间以及用户行为扩展权限区间之间的多级来源匹配信息以及所述多级来源匹配信息与预设多级来源匹配信息之间的关系,确定与所述页面用户行为信息相匹配的互联网功能业务信息。
在第一方面的一种可能的实现方式中,所述根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息的步骤,包括:
根据与所述互联网功能业务信息相对应的主题域信息确定所述互联网功能业务信息中每个业务重要优先级大于设定优先级的目标互联网功能业务,以及以所述目标互联网功能业务为业务基础区域的第一识别对象和第二识别对象,所述第一识别对象的模拟数据采集进程与所述第二识别对象的模拟数据采集进程不重合,并且相互之间存在逻辑关联;
确定所述第一识别对象中符合第一目标要求的主题域字段对象,根据所述符合第一目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定所述第一识别对象对应的第一滑动组件信息;其中,所述符合第一目标要求的主题域字段对象为源数据表字段信息匹配于所述关联的预设字段验证信息的主题域字段对象;
确定所述第二识别对象中符合第二目标要求的主题域字段对象,根据所述符合第二目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定所述第二识别对象对应的第二滑动组件信息;其中,所述符合第二目标要求的主题域字段对象为源数据表字段信息匹配于所述关联的预设字段验证信息的主题域字段对象;
根据所述第一识别对象对应的第一滑动组件信息,得到所述主题域字段对象在每个第一模拟数据采集进程的回调采集模拟参数,并根据所述第二识别对象中的第二滑动组件信息,得到所述主题域字段对象在每个第二模拟数据采集进程的回调采集模拟参数;
根据所述每个第一模拟数据采集进程和每个第二模拟数据采集进程的回调采集模拟参数,分别对所述主题域字段对象在每个模拟数据采集进程进行模拟采集索引,得到每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息;
根据所述每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息得到对应的模拟采集索引信息;
根据所述模拟采集索引信息,生成对应的数据采集识别节点信息。
在第一方面的一种可能的实现方式中,所述根据所述每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息得到对应的模拟采集索引信息的步骤,包括:
确定所述每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息之间的重叠模拟采集索引信息;
将所述重叠模拟采集索引信息确定为所述对应的模拟采集索引信息。
在第一方面的一种可能的实现方式中,所述根据所述模拟采集索引信息,生成对应的数据采集识别节点信息的步骤,包括:
针对所述模拟采集索引信息中的任一模拟采集索引分段,确定所述任一模拟采集索引分段的索引参数以及数据采集识别特征,其中,所述任一模拟采集索引分段的数据采集识别特征用于表征所述任一模拟采集索引分段的采集前置属性特征和/或采集节点特征;
根据所述索引参数以及所述数据采集识别特征,确定数据采集识别参数的特征,配置总数据采集识别参数的特征,并根据所述数据采集识别参数的特征和所述总数据采集识别参数的特征,确定所述任一模拟采集索引分段的设定索引节点的索引节点参数;
根据确定出的所述任一模拟采集索引分段设定索引节点的索引节点参数,基于所述任一模拟采集索引分段的各索引节点的索引节点参数映射得到所述任一模拟采集索引分段的各索引节点的目标索引节点参数;
通过不断调整总数据采集识别参数的特征,并基于数据采集识别参数的特征迭代计算所述任一模拟采集索引分段的各索引节点的目标索引节点参数,直到得到的所述任一模拟采集索引分段的平均目标索引节点参数与索引参数的相对误差的绝对值不高于设定误差值;
根据确定出的所述模拟采集索引信息的各模拟采集索引分段的各索引节点的目标索引节点参数,生成对应的数据采集识别节点信息。
在第一方面的一种可能的实现方式中,所述根据确定出的所述模拟采集索引信息的各模拟采集索引分段的各索引节点的目标索引节点参数,生成对应的数据采集识别节点信息的步骤,包括:
对于所述模拟采集索引信息的各模拟采集索引分段的各索引节点,根据该索引节点的目标索引节点参数,确定该索引节点的原始页面采集源码关系;其中,所述原始页面采集源码关系用于表示在采用该索引节点参数和目标索引节点参数对该索引节点进行页面模拟采集时,需要页面模拟采集出的参数所占用的原始页面模拟采集节点的展现情况;
根据各索引节点的索引节点参数,确定出对各索引节点的原始页面采集源码关系进行第一维度的页面模拟采集处理时所采用的页面模拟采集值,其中,所述第一维度的页面模拟采集处理用于表示对各索引节点的原始页面采集源码关系按照原始默认的页面采集方式进行处理;
对于每个索引节点的原始页面采集源码关系,采用相同的页面模拟采集值,按照预设第一维度页面模拟采集规则,对该索引节点的原始页面采集源码关系进行第一维度的页面模拟采集处理,确定处理后的第一维度页面采集源码关系,其中,所述第一维度页面采集源码关系用于表示在采用所述页面模拟采集值和对应的目标索引节点参数对该索引节点进行页面模拟采集时,需要页面模拟采集出的参数所占用的外层展现页面模拟采集节点的展现情况;
根据各索引节点的第一维度页面采集源码关系所表征出的页面模拟采集参数所占用的外层展现页面模拟采集节点之间的关联度,对所述第一维度页面采集源码关系进行页面模拟采集位置转换,以使各第一维度页面采集源码关系之间的关联度最低;
对于关联度最低的各第一维度页面采集源码关系,根据所述页面模拟采集值与该索引节点的索引节点参数之间的比例,按照预设第二维度页面模拟采集规则,对该第一维度页面采集源码关系进行第二维度的页面模拟采集处理,确定处理后的实际页面采集源码关系;其中,所述实际页面采集源码关系用于表征在采用该索引节点的索引节点参数和目标索引节点参数进行页面模拟采集时,需要页面模拟采集参数所占用的实际页面模拟采集节点的展现情况,其中,所述第二维度的页面模拟采集处理用于表示对各索引节点的该第一维度页面采集源码关系按照与原始默认的页面采集方式不同的其它页面采集方式进行处理;
根据处理后的所述各索引节点的实际页面采集源码关系,得到所述模拟采集索引信息的各模拟采集索引分段的事件响应信息;
根据所述模拟采集索引信息的各模拟采集索引分段的事件响应信息生成对应的数据采集识别节点信息。
在第一方面的一种可能的实现方式中,所述根据所述模拟采集索引信息的各模拟采集索引分段的事件响应信息生成对应的数据采集识别节点信息的步骤,包括:
根据所述模拟采集索引信息的各模拟采集索引分段的事件响应信息,得到事件响应信息中每个响应事件的响应过程节点,确定所述事件响应信息的第一响应过程节点矩阵;
针对参考页面模拟采集信息列表中保存的每个参考页面模拟采集信息的第二响应过程节点矩阵,确定所述第一响应过程节点矩阵和该第二响应过程节点矩阵的文档对象模型;
针对所述参考页面模拟采集信息列表中保存的定向参考页面模拟采集信息,根据确定的每个定向参考页面模拟采集信息对应的第一文档对象模型,将所述第一文档对象模型中的最大文档对象关联度的对象作为第一目标文档对象模型;
针对所述参考页面模拟采集信息列表中保存的非定向参考页面模拟采集信息,根据确定的每个非定向参考页面模拟采集信息对应的第二文档对象模型,将所述第二文档对象模型中的最大文档对象关联度的对象作为第二目标文档对象模型;
将保存的定向参考页面模拟采集信息对应的第一文档对象模型和保存的非定向参考页面模拟采集信息对应的第二文档对象模型,与定向参考页面模拟采集信息对应的第一目标文档对象模型和非定向参考页面模拟采集信息对应的第二目标文档对象模型进行比较,确定所述事件响应信息的数据采集识别策略及文档对象模型参考信息,采用所述数据采集识别策略根据所述文档对象模型参考信息对所述事件响应信息进行处理,生成对应的数据采集识别节点信息。
在第一方面的一种可能的实现方式中,所述通过大数据采集控件将所述数据采集识别节点信息关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据所述数据采集识别节点信息对所述数据采集脚本进行配置后,执行大数据采集的步骤,包括:
通过大数据采集控件将所述数据采集识别节点信息中的每个数据采集识别单元关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中对应的数据采集控制指令中;
将所述每个数据采集识别单元的数据采集识别配置信息对所述数据采集脚本中对应的数据采集控制指令的传输控制模板进行配置后,执行大数据采集。
在第一方面的一种可能的实现方式中,所述在大数据采集过程中通过所述数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作的步骤,包括:
在大数据采集过程中,通过所述数据采集脚本中的每个数据采集控制指令对所述移动互联网终端进行对应的数据采集识别操作。
第二方面,本公开实施例还提供一种基于移动互联网的大数据采集装置,其特征在于,应用于人工智能云服务平台,所述人工智能云服务平台与多个移动互联网终端通信连接,所述装置包括:
确定模块,用于在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与所述页面用户行为信息相匹配的互联网功能业务信息;
生成模块,用于根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息;
关联配置模块,用于通过大数据采集控件将所述数据采集识别节点信息关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据所述数据采集识别节点信息对所述数据采集脚本进行配置后,执行大数据采集;
数据采集模块,用于在大数据采集过程中通过所述数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,其中,在进行数据采集识别操作的过程中,通过所述数据上传路径持续根据获得的数据采集识别节点信息对所述数据采集脚本进行更新配置。
第三方面,本公开实施例还提供一种基于移动互联网的大数据采集系统,所述基于移动互联网的大数据采集系统包括人工智能云服务平台以及与所述人工智能云服务平台通信连接的多个移动互联网终端;
所述人工智能云服务平台用于在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与所述页面用户行为信息相匹配的互联网功能业务信息,并根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息;
所述人工智能云服务平台用于通过大数据采集控件将所述数据采集识别节点信息关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据所述数据采集识别节点信息对所述数据采集脚本进行配置后,执行大数据采集;
所述人工智能云服务平台用于在大数据采集过程中通过所述数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,其中,在进行数据采集识别操作的过程中,通过所述数据上传路径持续根据获得的数据采集识别节点信息对所述数据采集脚本进行更新配置。
第四方面,本公开实施例还提供一种人工智能云服务平台,所述人工智能云服务平台包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所述处理器之间通过总线系统相连,所述网络接口用于与至少一个移动互联网终端通信连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以执行第一方面或者第一方面中任意一个可能的设计中的基于移动互联网的大数据采集方法。
第五方面,本公开实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其被执行时,使得计算机执行上述第一方面或者第一方面中任意一个可能的设计中的基于移动互联网的大数据采集方法。
基于上述任意一个方面,本公开在获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与页面用户行为信息相匹配的互联网功能业务信息,并根据互联网功能业务信息以及与互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息,然后根据数据采集识别节点信息对数据采集脚本进行配置后,再执行大数据采集,从而可以在大数据采集过程中通过数据采集脚本对移动互联网终端进行对应的数据采集识别操作,进而提高大数据采集过程中的采集针对性和准确性,从一定程度上避免在大数据采集过程中可能会由于数据采集识别节点的噪声问题导致的采集数据的噪声引入。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本公开实施例提供的基于移动互联网的大数据采集系统的应用场景示意图;
图2为本公开实施例提供的基于移动互联网的大数据采集方法的流程示意图;
图3为本公开实施例提供的基于移动互联网的大数据采集装置的功能模块示意图;
图4为本公开实施例提供的用于实现上述的基于移动互联网的大数据采集方法的人工智能云服务平台的结构示意框图。
具体实施方式
下面结合说明书附图对本公开进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
图1是本公开一种实施例提供的基于移动互联网的大数据采集系统10的交互示意图。基于移动互联网的大数据采集系统10可以包括人工智能云服务平台100以及与所述人工智能云服务平台100通信连接的移动互联网终端200。图1所示的基于移动互联网的大数据采集系统10仅为一种可行的示例,在其它可行的实施例中,该基于移动互联网的大数据采集系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。
本实施例中,移动互联网终端200可以包括移动设备、平板计算机、膝上型计算机等或其任意组合。在一些实施例中,移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,或其任意组合。在一些实施例中,智能家居设备可以包括智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机等,或其任意组合。在一些实施例中,可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等,或其任何组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理、游戏设备等,或其任意组合。在一些实施例中,虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实玻璃、虚拟现实贴片、增强现实头盔、增强现实玻璃、或增强现实贴片等,或其任意组合。例如,虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。
本实施例中,基于移动互联网的大数据采集系统10中的人工智能云服务平台100和移动互联网终端200可以通过配合执行以下方法实施例所描述的基于移动互联网的大数据采集方法,具体人工智能云服务平台100和移动互联网终端200的执行步骤部分可以参照以下方法实施例的详细描述。
为了解决前述背景技术中的技术问题,图2为本公开实施例提供的基于移动互联网的大数据采集方法的流程示意图,本实施例提供的基于移动互联网的大数据采集方法可以由图1中所示的人工智能云服务平台100执行,下面对该基于移动互联网的大数据采集方法进行详细介绍。
步骤S110,在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与页面用户行为信息相匹配的互联网功能业务信息。
步骤S120,根据互联网功能业务信息以及与互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息。
步骤S130,通过大数据采集控件将数据采集识别节点信息关联到页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据数据采集识别节点信息对数据采集脚本进行配置后,执行大数据采集。
步骤S140,在大数据采集过程中通过数据采集脚本对移动互联网终端200进行对应的数据采集识别操作。
本实施例中,扩展页面对象可以是指当前页面访问过程中与当前页面相关的可访问页面。
本实施例中,互联网功能业务信息可以是指基于扩展页面对象的页面用户行为信息可能会产生关联的互联网功能业务,互联网功能业务可以是指互联网访问的功能类型。相对应地,主题域信息可以是指基于以上确定的互联网功能业务所对应的页面访问过程中的主题数据信息。数据采集识别节点信息可以是指在访问采集过程中用于产生数据采集的配置信息。
本实施例中,页面用户行为信息可以是但不限于用户配置行为、用户点击行为、用户浏览行为等信息,在此不作详细限定。
本实施例中,在进行数据采集识别操作的过程中,可以通过数据上传路径持续根据获得的数据采集识别节点信息对数据采集脚本进行更新配置。
基于上述步骤,本实施例在获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与页面用户行为信息相匹配的互联网功能业务信息,并根据互联网功能业务信息以及与互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息,然后根据数据采集识别节点信息对数据采集脚本进行配置后,再执行大数据采集,从而可以在大数据采集过程中通过数据采集脚本对移动互联网终端200进行对应的数据采集识别操作,进而提高大数据采集过程中的采集针对性和准确性,从一定程度上避免在大数据采集过程中可能会由于数据采集识别节点的噪声问题导致的采集数据的噪声引入。
在一种可能的实现方式中,针对步骤S110,具体可以通过子步骤示例性实现,详细描述如下。
子步骤S111,从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息。
例如,页面用户行为信息可以包括参考互联网功能业务、业务采集板块数量、用户行为权限区间以及用户行为扩展权限区间。在其它可能的实施方式中,页面用户行为信息还可以包括扩展页面对象的行为属性信息,例如行为操作类型、行为对象所属业务类型、行为产生时间等。参考互联网功能业务可以是指根据历史情况确定的预设的互联网功能业务,业务采集板块数量可以是指该扩展页面对象历史上被各种渠道(例如聊天工具、电商工具等)公开的板块数量,用户行为权限区间可以是指该扩展页面对象关联的用户行为业务,用户行为扩展权限区间可以是指该扩展页面对象的外部关联的用户行为业务。
子步骤S112,确定页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值。
子步骤S113,以业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值构建互联网功能业务矩阵,根据页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值,在互联网功能业务矩阵中确定页面用户行为信息对应的每个第一互联网功能业务。
子步骤S114,根据每个参考互联网功能业务的业务特征向量,在互联网功能业务矩阵中确定每个参考互联网功能业务的业务特征区间。
子步骤S115,根据每个参考互联网功能业务对应的业务特征区间,和预设的业务特征区间与初始业务访问频繁参数的对应关系,确定每个参考互联网功能业务的初始业务访问频繁参数。
子步骤S116,针对每个参考互联网功能业务中包括的每个第一互联网功能业务,根据该第一互联网功能业务所属的参考互联网功能业务的初始业务访问频繁参数,确定该第一互联网功能业务的目标业务访问频繁参数。
子步骤S117,根据每个第一互联网功能业务对应的预设业务采集板块数量、预设业务节点区间值和目标业务访问频繁参数,确定每个第一互联网功能业务所对应的目标业务节点区间值、目标业务采集板块数量值和目标用户行为扩展权限区间值。
子步骤S118,根据每个第一互联网功能业务所对应的目标业务采集板块数量值、目标业务节点区间值和目标用户行为扩展权限区间值分别与页面用户行为信息中的业务采集板块数量、用户行为权限区间以及用户行为扩展权限区间之间的多级来源匹配信息以及多级来源匹配信息与预设多级来源匹配信息之间的关系,确定与页面用户行为信息相匹配的互联网功能业务信息。
在一种可能的实现方式中,针对步骤S120,具体可以通过子步骤示例性实现,详细描述如下。
子步骤S121,根据与互联网功能业务信息相对应的主题域信息确定互联网功能业务信息中每个业务重要优先级大于设定优先级的目标互联网功能业务,以及以目标互联网功能业务为业务基础区域的第一识别对象和第二识别对象,第一识别对象的模拟数据采集进程与第二识别对象的模拟数据采集进程不重合,并且相互之间存在逻辑关联。
子步骤S122,确定第一识别对象中符合第一目标要求的主题域字段对象,根据符合第一目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定第一识别对象对应的第一滑动组件信息。
例如,符合第一目标要求的主题域字段对象可以为源数据表字段信息匹配于关联的预设字段验证信息的主题域字段对象。
子步骤S123,确定第二识别对象中符合第二目标要求的主题域字段对象,根据符合第二目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定第二识别对象对应的第二滑动组件信息。
例如,符合第二目标要求的主题域字段对象可以为源数据表字段信息匹配于关联的预设字段验证信息的主题域字段对象。
子步骤S124,根据第一识别对象对应的第一滑动组件信息,得到主题域字段对象在每个第一模拟数据采集进程的回调采集模拟参数,并根据第二识别对象中的第二滑动组件信息,得到主题域字段对象在每个第二模拟数据采集进程的回调采集模拟参数。
子步骤S125,根据每个第一模拟数据采集进程和每个第二模拟数据采集进程的回调采集模拟参数,分别对主题域字段对象在每个模拟数据采集进程进行模拟采集索引,得到每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息。
子步骤S126,根据每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息得到对应的模拟采集索引信息。
子步骤S127,根据模拟采集索引信息,生成对应的数据采集识别节点信息。
作为一种示例,在子步骤S126中,具体可以通过以下实施方式中来进一步实现。
(1)确定每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息之间的重叠模拟采集索引信息。
(2)将重叠模拟采集索引信息确定为对应的模拟采集索引信息。
作为一种示例,在子步骤S127中,具体可以通过以下实施方式中来进一步实现。
(1)针对模拟采集索引信息中的任一模拟采集索引分段,确定任一模拟采集索引分段的索引参数以及数据采集识别特征。
例如,任一模拟采集索引分段的数据采集识别特征可以用于表征任一模拟采集索引分段的采集前置属性特征和/或采集节点特征。
(2)根据索引参数以及数据采集识别特征,确定数据采集识别参数的特征,配置总数据采集识别参数的特征,并根据数据采集识别参数的特征和总数据采集识别参数的特征,确定任一模拟采集索引分段的设定索引节点的索引节点参数。
(3)根据确定出的任一模拟采集索引分段设定索引节点的索引节点参数,基于任一模拟采集索引分段的各索引节点的索引节点参数映射得到任一模拟采集索引分段的各索引节点的目标索引节点参数。
(4)通过不断调整总数据采集识别参数的特征,并基于数据采集识别参数的特征迭代计算任一模拟采集索引分段的各索引节点的目标索引节点参数,直到得到的任一模拟采集索引分段的平均目标索引节点参数与索引参数的相对误差的绝对值不高于设定误差值。
(5)根据确定出的模拟采集索引信息的各模拟采集索引分段的各索引节点的目标索引节点参数,生成对应的数据采集识别节点信息。
例如,对于模拟采集索引信息的各模拟采集索引分段的各索引节点,可以根据该索引节点的目标索引节点参数,确定该索引节点的原始页面采集源码关系。其中值得说明的是,原始页面采集源码关系用于表示在采用该索引节点参数和目标索引节点参数对该索引节点进行页面模拟采集时,需要页面模拟采集出的参数所占用的原始页面模拟采集节点的展现情况。
在此基础上,可以根据各索引节点的索引节点参数,确定出对各索引节点的原始页面采集源码关系进行第一维度的页面模拟采集处理时所采用的页面模拟采集值,其中值得说明的是,第一维度的页面模拟采集处理用于表示对各索引节点的原始页面采集源码关系按照原始默认的页面采集方式进行处理。
接着,对于每个索引节点的原始页面采集源码关系,采用相同的页面模拟采集值,按照预设第一维度页面模拟采集规则,对该索引节点的原始页面采集源码关系进行第一维度的页面模拟采集处理,确定处理后的第一维度页面采集源码关系。
其中,值得说明的是,第一维度页面采集源码关系用于表示在采用页面模拟采集值和对应的目标索引节点参数对该索引节点进行页面模拟采集时,需要页面模拟采集出的参数所占用的外层展现页面模拟采集节点的展现情况。
而后,可以根据各索引节点的第一维度页面采集源码关系所表征出的页面模拟采集参数所占用的外层展现页面模拟采集节点之间的关联度,对第一维度页面采集源码关系进行页面模拟采集位置转换,以使各第一维度页面采集源码关系之间的关联度最低。
由此,对于关联度最低的各第一维度页面采集源码关系,根据页面模拟采集值与该索引节点的索引节点参数之间的比例,按照预设第二维度页面模拟采集规则,对该第一维度页面采集源码关系进行第二维度的页面模拟采集处理,确定处理后的实际页面采集源码关系。其中,实际页面采集源码关系用于表征在采用该索引节点的索引节点参数和目标索引节点参数进行页面模拟采集时,需要页面模拟采集参数所占用的实际页面模拟采集节点的展现情况,其中,第二维度的页面模拟采集处理用于表示对各索引节点的该第一维度页面采集源码关系按照与原始默认的页面采集方式不同的其它页面采集方式进行处理。
然后,可以根据处理后的各索引节点的实际页面采集源码关系,得到模拟采集索引信息的各模拟采集索引分段的事件响应信息,并根据模拟采集索引信息的各模拟采集索引分段的事件响应信息生成对应的数据采集识别节点信息。
在一种可能的实现方式中,在根据模拟采集索引信息的各模拟采集索引分段的事件响应信息生成对应的数据采集识别节点信息的过程中,本实施例具体可以根据模拟采集索引信息的各模拟采集索引分段的事件响应信息,得到事件响应信息中每个响应事件的响应过程节点,确定事件响应信息的第一响应过程节点矩阵。
然后,针对参考页面模拟采集信息列表中保存的每个参考页面模拟采集信息的第二响应过程节点矩阵,确定第一响应过程节点矩阵和该第二响应过程节点矩阵的文档对象模型。
同时,针对参考页面模拟采集信息列表中保存的定向参考页面模拟采集信息,根据确定的每个定向参考页面模拟采集信息对应的第一文档对象模型,将第一文档对象模型中的最大文档对象关联度的对象作为第一目标文档对象模型。
同时,针对参考页面模拟采集信息列表中保存的非定向参考页面模拟采集信息,根据确定的每个非定向参考页面模拟采集信息对应的第二文档对象模型,将第二文档对象模型中的最大文档对象关联度的对象作为第二目标文档对象模型。
由此,可以将保存的定向参考页面模拟采集信息对应的第一文档对象模型和保存的非定向参考页面模拟采集信息对应的第二文档对象模型,与定向参考页面模拟采集信息对应的第一目标文档对象模型和非定向参考页面模拟采集信息对应的第二目标文档对象模型进行比较,确定事件响应信息的数据采集识别策略及文档对象模型参考信息,采用数据采集识别策略根据文档对象模型参考信息对事件响应信息进行处理,生成对应的数据采集识别节点信息。
在一种可能的实现方式中,针对步骤S130,具体可以通过子步骤示例性实现,详细描述如下。
子步骤S131,通过大数据采集控件将数据采集识别节点信息中的每个数据采集识别单元关联到页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中对应的数据采集控制指令中。
子步骤S132,将每个数据采集识别单元的数据采集识别配置信息对数据采集脚本中对应的数据采集控制指令的传输控制模板进行配置后,执行大数据采集。
由此,在一种可能的实现方式中,针对步骤S140,具体可以在大数据采集过程中,通过数据采集脚本中的每个数据采集控制指令对移动互联网终端200进行对应的数据采集识别操作。
图3为本公开实施例提供的基于移动互联网的大数据采集装置300的功能模块示意图,本实施例可以根据上述人工智能云服务平台100执行的方法实施例对该基于移动互联网的大数据采集装置300进行功能模块的划分,也即该基于移动互联网的大数据采集装置300所对应的以下各个功能模块可以用于执行上述人工智能云服务平台100执行的各个方法实施例。其中,该基于移动互联网的大数据采集装置300可以包括确定模块310、生成模块320、关联配置模块330以及数据采集模块340,下面分别对该基于移动互联网的大数据采集装置300的各个功能模块的功能进行详细阐述。
确定模块310,用于在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与页面用户行为信息相匹配的互联网功能业务信息。其中,确定模块310可以用于执行上述的步骤S110,关于确定模块310的详细实现方式可以参照上述针对步骤S110的详细描述即可。
生成模块320,用于根据互联网功能业务信息以及与互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息。其中,生成模块320可以用于执行上述的步骤S120,关于生成模块320的详细实现方式可以参照上述针对步骤S120的详细描述即可。
关联配置模块330,用于通过大数据采集控件将数据采集识别节点信息关联到页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据数据采集识别节点信息对数据采集脚本进行配置后,执行大数据采集。其中,关联配置模块330可以用于执行上述的步骤S130,关于关联配置模块330的详细实现方式可以参照上述针对步骤S130的详细描述即可。
数据采集模块340,用于在大数据采集过程中通过数据采集脚本对移动互联网终端200进行对应的数据采集识别操作,其中,在进行数据采集识别操作的过程中,通过数据上传路径持续根据获得的数据采集识别节点信息对数据采集脚本进行更新配置。其中,数据采集模块340可以用于执行上述的步骤S140,关于数据采集模块340的详细实现方式可以参照上述针对步骤S140的详细描述即可。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,确定模块310可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块310的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
图4示出了本公开实施例提供的用于实现上述的控制设备的人工智能云服务平台100的硬件结构示意图,如图4所示,人工智能云服务平台100可包括处理器110、机器可读存储介质120、总线130以及收发器140。
在具体实现过程中,至少一个处理器110执行所述机器可读存储介质120存储的计算机执行指令(例如图3中所示的基于移动互联网的大数据采集装置300包括的确定模块310、生成模块320、关联配置模块330以及数据采集模块340),使得处理器110可以执行如上方法实施例的基于移动互联网的大数据采集方法,其中,处理器110、机器可读存储介质120以及收发器140通过总线130连接,处理器110可以用于控制收发器140的收发动作,从而可以与前述的移动互联网终端200进行数据收发。
处理器110的具体实现过程可参见上述人工智能云服务平台100执行的各个方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图4所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,DSP)、专用集成电路(英文:ApplicationSpecificIntegrated Circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
机器可读存储介质120可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线130可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线130可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
此外,本公开实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上基于移动互联网的大数据采集方法。
上述的可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。
Claims (10)
1.一种基于移动互联网的大数据采集方法,其特征在于,应用于人工智能云服务平台,所述人工智能云服务平台与多个移动互联网终端通信连接,所述方法包括:
在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与所述页面用户行为信息相匹配的互联网功能业务信息;
根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息;
通过大数据采集控件将所述数据采集识别节点信息关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据所述数据采集识别节点信息对所述数据采集脚本进行配置后,执行大数据采集;
在大数据采集过程中通过所述数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,其中,在进行数据采集识别操作的过程中,通过所述数据上传路径持续根据获得的数据采集识别节点信息对所述数据采集脚本进行更新配置。
2.根据权利要求1所述的基于移动互联网的大数据采集方法,其特征在于,所述在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与所述页面用户行为信息相匹配的互联网功能业务信息的步骤,包括:
从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息,所述页面用户行为信息包括参考互联网功能业务、业务采集板块数量、用户行为权限区间以及用户行为扩展权限区间;
确定所述页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值;
根据所述页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值确定与所述页面用户行为信息相匹配的互联网功能业务信息。
3.根据权利要求1所述的基于移动互联网的大数据采集方法,其特征在于,所述根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息的步骤,包括:
根据与所述互联网功能业务信息相对应的主题域信息确定所述互联网功能业务信息中每个业务重要优先级大于设定优先级的目标互联网功能业务,以及以所述目标互联网功能业务为业务基础区域的第一识别对象和第二识别对象,所述第一识别对象的模拟数据采集进程与所述第二识别对象的模拟数据采集进程不重合,并且相互之间存在逻辑关联;
确定所述第一识别对象中符合第一目标要求的主题域字段对象,根据所述符合第一目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定所述第一识别对象对应的第一滑动组件信息;其中,所述符合第一目标要求的主题域字段对象为源数据表字段信息匹配于所述关联的预设字段验证信息的主题域字段对象;
确定所述第二识别对象中符合第二目标要求的主题域字段对象,根据所述符合第二目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定所述第二识别对象对应的第二滑动组件信息;其中,所述符合第二目标要求的主题域字段对象为源数据表字段信息匹配于所述关联的预设字段验证信息的主题域字段对象;
根据所述第一识别对象对应的第一滑动组件信息,得到所述主题域字段对象在每个第一模拟数据采集进程的回调采集模拟参数,并根据所述第二识别对象中的第二滑动组件信息,得到所述主题域字段对象在每个第二模拟数据采集进程的回调采集模拟参数;
根据所述每个第一模拟数据采集进程和每个第二模拟数据采集进程的回调采集模拟参数,分别对所述主题域字段对象在每个模拟数据采集进程进行模拟采集索引,得到每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息;
根据所述每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息得到对应的模拟采集索引信息;
根据所述模拟采集索引信息,生成对应的数据采集识别节点信息。
4.根据权利要求3所述的基于移动互联网的大数据采集方法,其特征在于,所述根据所述每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息得到对应的模拟采集索引信息的步骤,包括:
确定所述每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息之间的重叠模拟采集索引信息;
将所述重叠模拟采集索引信息确定为所述对应的模拟采集索引信息。
5.根据权利要求3所述的基于移动互联网的大数据采集方法,其特征在于,所述根据所述模拟采集索引信息,生成对应的数据采集识别节点信息的步骤,包括:
针对所述模拟采集索引信息中的任一模拟采集索引分段,确定所述任一模拟采集索引分段的索引参数以及数据采集识别特征,其中,所述任一模拟采集索引分段的数据采集识别特征用于表征所述任一模拟采集索引分段的采集前置属性特征和/或采集节点特征;
根据所述索引参数以及所述数据采集识别特征,确定数据采集识别参数的特征,配置总数据采集识别参数的特征,并根据所述数据采集识别参数的特征和所述总数据采集识别参数的特征,确定所述任一模拟采集索引分段的设定索引节点的索引节点参数;
根据确定出的所述任一模拟采集索引分段设定索引节点的索引节点参数,基于所述任一模拟采集索引分段的各索引节点的索引节点参数映射得到所述任一模拟采集索引分段的各索引节点的目标索引节点参数;
通过不断调整总数据采集识别参数的特征,并基于数据采集识别参数的特征迭代计算所述任一模拟采集索引分段的各索引节点的目标索引节点参数,直到得到的所述任一模拟采集索引分段的平均目标索引节点参数与索引参数的相对误差的绝对值不高于设定误差值;
根据确定出的所述模拟采集索引信息的各模拟采集索引分段的各索引节点的目标索引节点参数,生成对应的数据采集识别节点信息。
6.根据权利要求5所述的基于移动互联网的大数据采集方法,其特征在于,所述根据确定出的所述模拟采集索引信息的各模拟采集索引分段的各索引节点的目标索引节点参数,生成对应的数据采集识别节点信息的步骤,包括:
对于所述模拟采集索引信息的各模拟采集索引分段的各索引节点,根据该索引节点的目标索引节点参数,确定该索引节点的原始页面采集源码关系;其中,所述原始页面采集源码关系用于表示在采用该索引节点参数和目标索引节点参数对该索引节点进行页面模拟采集时,需要页面模拟采集出的参数所占用的原始页面模拟采集节点的展现情况;
根据各索引节点的索引节点参数,确定出对各索引节点的原始页面采集源码关系进行第一维度的页面模拟采集处理时所采用的页面模拟采集值,其中,所述第一维度的页面模拟采集处理用于表示对各索引节点的原始页面采集源码关系按照原始默认的页面采集方式进行处理;
对于每个索引节点的原始页面采集源码关系,采用相同的页面模拟采集值,按照预设第一维度页面模拟采集规则,对该索引节点的原始页面采集源码关系进行第一维度的页面模拟采集处理,确定处理后的第一维度页面采集源码关系,其中,所述第一维度页面采集源码关系用于表示在采用所述页面模拟采集值和对应的目标索引节点参数对该索引节点进行页面模拟采集时,需要页面模拟采集出的参数所占用的外层展现页面模拟采集节点的展现情况;
根据各索引节点的第一维度页面采集源码关系所表征出的页面模拟采集参数所占用的外层展现页面模拟采集节点之间的关联度,对所述第一维度页面采集源码关系进行页面模拟采集位置转换,以使各第一维度页面采集源码关系之间的关联度最低;
对于关联度最低的各第一维度页面采集源码关系,根据所述页面模拟采集值与该索引节点的索引节点参数之间的比例,按照预设第二维度页面模拟采集规则,对该第一维度页面采集源码关系进行第二维度的页面模拟采集处理,确定处理后的实际页面采集源码关系;其中,所述实际页面采集源码关系用于表征在采用该索引节点的索引节点参数和目标索引节点参数进行页面模拟采集时,需要页面模拟采集参数所占用的实际页面模拟采集节点的展现情况,其中,所述第二维度的页面模拟采集处理用于表示对各索引节点的该第一维度页面采集源码关系按照与原始默认的页面采集方式不同的其它页面采集方式进行处理;
根据处理后的所述各索引节点的实际页面采集源码关系,得到所述模拟采集索引信息的各模拟采集索引分段的事件响应信息;
根据所述模拟采集索引信息的各模拟采集索引分段的事件响应信息生成对应的数据采集识别节点信息。
7.根据权利要求1所述的基于移动互联网的大数据采集方法,其特征在于,所述根据所述模拟采集索引信息的各模拟采集索引分段的事件响应信息生成对应的数据采集识别节点信息的步骤,包括:
根据所述模拟采集索引信息的各模拟采集索引分段的事件响应信息,得到事件响应信息中每个响应事件的响应过程节点,确定所述事件响应信息的第一响应过程节点矩阵;
针对参考页面模拟采集信息列表中保存的每个参考页面模拟采集信息的第二响应过程节点矩阵,确定所述第一响应过程节点矩阵和该第二响应过程节点矩阵的文档对象模型;
针对所述参考页面模拟采集信息列表中保存的定向参考页面模拟采集信息,根据确定的每个定向参考页面模拟采集信息对应的第一文档对象模型,将所述第一文档对象模型中的最大文档对象关联度的对象作为第一目标文档对象模型;
针对所述参考页面模拟采集信息列表中保存的非定向参考页面模拟采集信息,根据确定的每个非定向参考页面模拟采集信息对应的第二文档对象模型,将所述第二文档对象模型中的最大文档对象关联度的对象作为第二目标文档对象模型;
将保存的定向参考页面模拟采集信息对应的第一文档对象模型和保存的非定向参考页面模拟采集信息对应的第二文档对象模型,与定向参考页面模拟采集信息对应的第一目标文档对象模型和非定向参考页面模拟采集信息对应的第二目标文档对象模型进行比较,确定所述事件响应信息的数据采集识别策略及文档对象模型参考信息,采用所述数据采集识别策略根据所述文档对象模型参考信息对所述事件响应信息进行处理,生成对应的数据采集识别节点信息。
8.根据权利要求1所述的基于移动互联网的大数据采集方法,其特征在于,所述通过大数据采集控件将所述数据采集识别节点信息关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据所述数据采集识别节点信息对所述数据采集脚本进行配置后,执行大数据采集的步骤,包括:
通过大数据采集控件将所述数据采集识别节点信息中的每个数据采集识别单元关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中对应的数据采集控制指令中;
将所述每个数据采集识别单元的数据采集识别配置信息对所述数据采集脚本中对应的数据采集控制指令的传输控制模板进行配置后,执行大数据采集。
9.根据权利要求1所述的基于移动互联网的大数据采集方法,其特征在于,所述在大数据采集过程中通过所述数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作的步骤,包括:
在大数据采集过程中,通过所述数据采集脚本中的每个数据采集控制指令对所述移动互联网终端进行对应的数据采集识别操作。
10.一种人工智能云服务平台,其特征在于,所述人工智能云服务平台包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所述处理器之间通过总线系统相连,所述网络接口用于与至少一个移动互联网终端通信连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以执行权利要求1-9中任意一项的基于移动互联网的大数据采集方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011336992.7A CN112464064A (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法、系统及人工智能平台 |
CN202011336993.1A CN112464065A (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法及系统 |
CN202010508584.9A CN111708931B (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法及人工智能云服务平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010508584.9A CN111708931B (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法及人工智能云服务平台 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011336992.7A Division CN112464064A (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法、系统及人工智能平台 |
CN202011336993.1A Division CN112464065A (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111708931A true CN111708931A (zh) | 2020-09-25 |
CN111708931B CN111708931B (zh) | 2020-12-25 |
Family
ID=72539057
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011336992.7A Withdrawn CN112464064A (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法、系统及人工智能平台 |
CN202010508584.9A Active CN111708931B (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法及人工智能云服务平台 |
CN202011336993.1A Withdrawn CN112464065A (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法及系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011336992.7A Withdrawn CN112464064A (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法、系统及人工智能平台 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011336993.1A Withdrawn CN112464065A (zh) | 2020-06-06 | 2020-06-06 | 基于移动互联网的大数据采集方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN112464064A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396429A (zh) * | 2020-11-09 | 2021-02-23 | 中国南方电网有限责任公司 | 针对企业经营业务的统计分析系统 |
CN112486710A (zh) * | 2020-12-17 | 2021-03-12 | 夏红梅 | 基于大数据和人工智能的信息采集方法及数字内容服务平台 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114691665B (zh) * | 2022-04-13 | 2023-11-14 | 众坤(北京)航空设备有限公司 | 基于大数据分析的采集噪声点挖掘方法及大数据采集系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605764A (zh) * | 2013-11-26 | 2014-02-26 | Tcl集团股份有限公司 | 一种网络爬虫系统及网络爬虫多任务执行和调度方法 |
CN104809404A (zh) * | 2015-04-17 | 2015-07-29 | 广东电网有限责任公司信息中心 | 一种信息安全攻防平台的数据层系统 |
CN106484828A (zh) * | 2016-09-29 | 2017-03-08 | 西南科技大学 | 一种分布式互联网数据快速采集系统及采集方法 |
CN107273499A (zh) * | 2017-06-16 | 2017-10-20 | 成都布林特信息技术有限公司 | 基于垂直搜索引擎的数据抓取方法 |
CN107609052A (zh) * | 2017-08-23 | 2018-01-19 | 中国科学院软件研究所 | 一种基于语义三角的领域知识图谱的生成方法及装置 |
US20180212972A1 (en) * | 2010-12-30 | 2018-07-26 | Ensighten, Inc. | Online Privacy Management System with Enhanced Automatic Information Detection |
CN109634929A (zh) * | 2018-09-30 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 业务数据的采集方法、装置和服务器 |
CN110442766A (zh) * | 2019-07-11 | 2019-11-12 | 新华三大数据技术有限公司 | 网页数据采集方法、装置、设备及存储介质 |
CN110457556A (zh) * | 2019-07-04 | 2019-11-15 | 重庆金融资产交易所有限责任公司 | 分布式爬虫系统架构、爬取数据的方法和计算机设备 |
CN110765402A (zh) * | 2019-10-31 | 2020-02-07 | 同方知网(北京)技术有限公司 | 一种基于网络资源的可视化采集系统及采集方法 |
CN110837529A (zh) * | 2019-11-27 | 2020-02-25 | 王培根 | 大数据分析监察方法、装置、服务器及可读存储介质 |
-
2020
- 2020-06-06 CN CN202011336992.7A patent/CN112464064A/zh not_active Withdrawn
- 2020-06-06 CN CN202010508584.9A patent/CN111708931B/zh active Active
- 2020-06-06 CN CN202011336993.1A patent/CN112464065A/zh not_active Withdrawn
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180212972A1 (en) * | 2010-12-30 | 2018-07-26 | Ensighten, Inc. | Online Privacy Management System with Enhanced Automatic Information Detection |
CN103605764A (zh) * | 2013-11-26 | 2014-02-26 | Tcl集团股份有限公司 | 一种网络爬虫系统及网络爬虫多任务执行和调度方法 |
CN104809404A (zh) * | 2015-04-17 | 2015-07-29 | 广东电网有限责任公司信息中心 | 一种信息安全攻防平台的数据层系统 |
CN106484828A (zh) * | 2016-09-29 | 2017-03-08 | 西南科技大学 | 一种分布式互联网数据快速采集系统及采集方法 |
CN107273499A (zh) * | 2017-06-16 | 2017-10-20 | 成都布林特信息技术有限公司 | 基于垂直搜索引擎的数据抓取方法 |
CN107609052A (zh) * | 2017-08-23 | 2018-01-19 | 中国科学院软件研究所 | 一种基于语义三角的领域知识图谱的生成方法及装置 |
CN109634929A (zh) * | 2018-09-30 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 业务数据的采集方法、装置和服务器 |
CN110457556A (zh) * | 2019-07-04 | 2019-11-15 | 重庆金融资产交易所有限责任公司 | 分布式爬虫系统架构、爬取数据的方法和计算机设备 |
CN110442766A (zh) * | 2019-07-11 | 2019-11-12 | 新华三大数据技术有限公司 | 网页数据采集方法、装置、设备及存储介质 |
CN110765402A (zh) * | 2019-10-31 | 2020-02-07 | 同方知网(北京)技术有限公司 | 一种基于网络资源的可视化采集系统及采集方法 |
CN110837529A (zh) * | 2019-11-27 | 2020-02-25 | 王培根 | 大数据分析监察方法、装置、服务器及可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396429A (zh) * | 2020-11-09 | 2021-02-23 | 中国南方电网有限责任公司 | 针对企业经营业务的统计分析系统 |
CN112396429B (zh) * | 2020-11-09 | 2023-06-30 | 中国南方电网有限责任公司 | 针对企业经营业务的统计分析系统 |
CN112486710A (zh) * | 2020-12-17 | 2021-03-12 | 夏红梅 | 基于大数据和人工智能的信息采集方法及数字内容服务平台 |
CN112486710B (zh) * | 2020-12-17 | 2021-07-09 | 浙江盘石信息技术股份有限公司 | 基于大数据和人工智能的信息采集方法及数字内容服务平台 |
Also Published As
Publication number | Publication date |
---|---|
CN111708931B (zh) | 2020-12-25 |
CN112464064A (zh) | 2021-03-09 |
CN112464065A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708931B (zh) | 基于移动互联网的大数据采集方法及人工智能云服务平台 | |
CN112996020B (zh) | 一种基于蓝牙的自动化测试方法、装置及蓝牙测试终端 | |
CN111831662B (zh) | 一种医疗数据信息处理方法及系统 | |
CN111540424B (zh) | 基于人工智能的智慧医疗病历管理方法及电子病历云平台 | |
CN111694572A (zh) | 代码格式转换方法、装置、计算机设备及存储介质 | |
CN109993026B (zh) | 亲属识别网络模型的训练方法及装置 | |
CN112437347A (zh) | 基于大数据的电子商务直播处理方法、系统及直播平台 | |
TW202244758A (zh) | 指紋識別方法、指紋模組及電子設備 | |
CN114003510A (zh) | 基于Mock服务的脚本测试方法、装置、设备及介质 | |
CN111708920B (zh) | 基于人工智能的互联网大数据处理方法及智能云服务平台 | |
CN108961071B (zh) | 自动预测组合业务收益的方法及终端设备 | |
CN115797267A (zh) | 图像质量评估方法、系统、电子设备和存储介质 | |
CN112217585B (zh) | 信号路径的确定方法、装置、计算机设备和存储介质 | |
CN113207026A (zh) | 一种视频推荐方法、装置及云服务器 | |
CN111797170A (zh) | 一种医疗数据信息协调处理方法、装置及系统 | |
CN111476886A (zh) | 智慧建筑楼宇三维模型渲染方法及楼宇云服务器 | |
TWI706378B (zh) | 雲端裝置、終端裝置及影像分類方法 | |
CN113884857B (zh) | 芯片、芯片压力测试方法、装置、电子设备及存储介质 | |
CN108694249B (zh) | 数据处理方法、装置、计算机设备以及存储介质 | |
CN110032498B (zh) | 一种用户app行为的预测方法 | |
CN114398515A (zh) | 一种视频搜索方法、装置及云服务器 | |
CN115454968A (zh) | 一种数据批量处理方法、电子设备和存储介质 | |
CN118297860A (zh) | 模型参数处理方法、装置、设备及介质 | |
CN113282907A (zh) | 一种视频会议用户信息映射方法、装置及系统 | |
CN113747103A (zh) | 一种视频会议连接方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201209 Address after: Room 801, 8 / F, unit n, F3, Lugu Yuyuan, No.27 Wenxuan Road, Yuelu District, Changsha City, Hunan Province Applicant after: HUNAN ALBERT ANIMALS NUTRITION GROUP Co.,Ltd. Address before: Room 206, 2 / F, R & D building, No. 6, No. 73, Lishi Avenue, Jinhu Economic Development Zone, Huaian City, Jiangsu Province 211600 Applicant before: Xie Guozhu |
|
GR01 | Patent grant | ||
GR01 | Patent grant |