CN113449173A - 一种基于特征采样的信息技术提取系统 - Google Patents
一种基于特征采样的信息技术提取系统 Download PDFInfo
- Publication number
- CN113449173A CN113449173A CN202110785277.XA CN202110785277A CN113449173A CN 113449173 A CN113449173 A CN 113449173A CN 202110785277 A CN202110785277 A CN 202110785277A CN 113449173 A CN113449173 A CN 113449173A
- Authority
- CN
- China
- Prior art keywords
- sampling
- module
- information
- prediction
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 153
- 238000000605 extraction Methods 0.000 title claims abstract description 63
- 238000005516 engineering process Methods 0.000 title claims abstract description 29
- 230000006798 recombination Effects 0.000 claims abstract description 33
- 238000005215 recombination Methods 0.000 claims abstract description 33
- 238000012216 screening Methods 0.000 claims abstract description 23
- 238000004891 communication Methods 0.000 claims abstract description 11
- 238000009825 accumulation Methods 0.000 claims abstract description 4
- 230000001939 inductive effect Effects 0.000 claims abstract description 4
- 230000003993 interaction Effects 0.000 claims description 23
- 230000005540 biological transmission Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000009434 installation Methods 0.000 claims description 3
- 230000008521 reorganization Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于特征采样的信息技术提取系统,属于特征采样技术领域;包括采样预测模块、采样提取模块、采样重组模块与采样分类模块;采样预测模块针对性的对采取样本进行定向收集、线上查找与归纳采集,采样预测模块通过定向收集的方式对线上站点页面进行针对性的定点采集,避免冗余信息数据堆积,采样预测模块采样方向基于线上查找的互联网、物联网通信方式,采样预测模块在进行针对性定点采集时通过样品信息归类的方式对提取样品信息进行筛查;采样预测模块包括结构化信息预测子模块与非结构化信息预测子模块,该种信息技术提取系统通过针对性的样本数据筛查与提取,来完成样本的特征采用工作,提高了该系统的实用性。
Description
技术领域
本发明涉及特征采样技术领域,特别是一种基于特征采样的信息技术提取系统。
背景技术
信息技术主要用于管理和处理信息,应用计算机科学和通信技术来设计、开发、安装和实施信息系统及应用软件,其中信息技术设备以及应用软件的初期开发,都需通过比对各类样本、采集数据,以评估、测试开发中系统的功能;
传统的信息技术软件、系统开发形式,通常以人工查询、输出表格的方式完善项目中各类缺失样本,其人工查询过程通常以互联网、物联网与大数据平台作为采样方向,以繁琐的人工筛查进行数据的归类整理,整个采样过程冗长繁琐,效率较低,同时结合最终的输出表格形式,其整个数据信息采样、提取耗时较大、采样面窄、人工计算量大,进而限制了整个软件、系统的开发耗时。
发明内容
本发明的目的是,针对上述问题,提供一种基于特征采样的信息技术提取系统,包括采样预测模块、采样提取模块、采样重组模块与采样分类模块;
所述采样预测模块针对性的对采取样本进行定向收集、线上查找与归纳采集,所述采样预测模块通过定向收集的方式对线上站点页面进行针对性的定点采集,避免冗余信息数据堆积,所述采样预测模块采样方向基于线上查找的互联网、物联网通信方式,所述采样预测模块在进行针对性定点采集时通过样品信息归类的方式对提取样品信息进行筛查;
所述采样预测模块包括结构化信息预测子模块与非结构化信息预测子模块,所述结构化信息预测子模块针对性的线上站点的模块信息进行采集预测,所述非结构化信息预测子模块针对性的对网络中非结构化的信息进行采集预测;
所述采样提取模块根据所述采样预测模块针对收集的信息进行提取,所述采样提取模块根据预设提取条件对收集的信息进行精度提取,所述采样提取模块包括终端交互模块、信息交互子模块、条件筛选设定子模块;
所述采样重组模块将根据采集的各类破碎信息进行重组、整合与文档输出,所述采样重组模块的重组、整合与文档输出具体在交互终端上完成,所述采样重组模块作为该信息技术提取系统的样本输出端;
所述采样分类模块基于所述采样重组模块,所述采样分类模块用于将采集样品的指定检索条件、标签进行归类分列,并将采集样品根据用户需求进行针对性特征的分类。
进一步的,所述采样预测模块、采样提取模块建立在互联网站点搜索引擎之上,所述采样预测模块与搜索引擎输入端口互联,所述采样提取模块与搜索引擎输出端口互联。
进一步的,所述结构化信息预测子模块通过采集预测模块型数据集、图片特征数据、文档形式数据以及立体模型类数据。
进一步的,所述非结构化信息预测子模块通过采集预测分散的参数信息、数据特征与词缀特征数据。
进一步的,所述终端交互模块的面向终端包括主机终端与个人用户终端,所述主机终端为该信息技术提取系统的安装主机端,所述个人用户终端通过互联网通信、物联网传输的方式与主机终端进行互联。
进一步的,所述信息交互子模块建立于终端交互模块与采样预测模块之间,所述信息交互子模块根据线上数据互传的方式与所述采样预测模块进行互联,所述信息交互子模块包括储存数据库。
进一步的,所述条件筛选设定子模块的设定项目包括数据类别、数据关键词缀、数据参数与数据名称。
进一步的,所述采样重组模块与终端交互模块互联,所述采样重组模块的重组方式将根据条件筛选设定子模块的设定项目进行重组。
进一步的,所述采样分类模块建立于采样重组模块与条件筛选设定子模块之间,所述采样分类模块的分类依据基于条件筛选设定子模块的设定项目,所述采样分类模块的分类输出端与采样重组模块为数据互联状态。
由于采用上述技术方案,本发明具有以下有益效果:
1.本方案中的一种基于特征采样的信息技术提取系统,该信息技术提取系统具体根据特征采样的定点提取方式,以系统中分别设置的采样重组模块、采样分类模块,对该系统所选的提取方向进行数据的特征分类、采集,过程中利用采样预测模块,以互联网、物联网的通信方式,在提取方向上对结构化信息、非结构化信息进行定点的采集预测,并在其基础上对采集提取的样品信息进行筛查分类,相比于传统的人工采集提取、筛查的方式,该系统能在系统自动提取、筛查数据的基础上,利用采样分类模块中的指定检索条件、标签进行归类分列,方便用户根据需求进行定向的采样提取,避免进行大范围提取时,冗长数据影响系统计算量与计算时间的问题,在提高该系统实用性的同时,保证了数据信息采样的效率。
2.本方案中的一种基于特征采样的信息技术提取系统,该信息技术提取系统在定点数据采样的基础上,能通过采样提取模块中针对性设置的条件筛选设定子模块,作为个人用户终端与该系统的交互端,用户在使用过程中能根据所缺失的样本提取需求,根据样本数据的数据类别、数据关键词缀、数据参数与数据名称,来针对性的对样本数据进行筛查提取,在整个样本收集平台上缩小指定样本数据的范围,避免传统人工采样方式检索范围小,采样范围小的问题,进一步提高了数据信息的采样效率以及实用性。
3.本方案中的一种基于特征采样的信息技术提取系统,该信息技术提取系统不仅能根据采样预测模块、采样分类模块对所采集的数据进行分类、针对性筛查,还能根据采样提取模块、采样重组模块,在条件筛选设定子模块设定的采样范围上,进一步通过用户设置的筛查采样范围、采集的数据类别、数据设定项目,对所提取的样本进行归类重组,并根据分类的形式进行文档输出,其文档输出直接在系统中进行,并可将所采集的样本文档直接传输至主机终端与个人用户终端,方便用户进行数据的汇总,进一步提高了数据信息的采样效率。
附图说明
图1是本发明整体结构示意图。
图2是本发明采集预测模块结构示意图。
图3是本发明采样提取模块结构示意图。
图4是本发明条件筛选设定子模块示意图。
图5是本发明采样重组模块结构示意图。
图6是本发明采样分类模块结构示意图。
具体实施方式
结合图1-图6,本发明公开了一种基于特征采样的信息技术提取系统,包括采样预测模块、采样提取模块、采样重组模块与采样分类模块,其特征在于:
采样预测模块针对性的对采取样本进行定向收集、线上查找与归纳采集,采样预测模块通过定向收集的方式对线上站点页面进行针对性的定点采集,避免冗余信息数据堆积,采样预测模块采样方向基于线上查找的互联网、物联网通信方式,采样预测模块在进行针对性定点采集时通过样品信息归类的方式对提取样品信息进行筛查;
采样预测模块包括结构化信息预测子模块与非结构化信息预测子模块,结构化信息预测子模块针对性的线上站点的模块信息进行采集预测,非结构化信息预测子模块针对性的对网络中非结构化的信息进行采集预测;
采样预测模块、采样提取模块建立在互联网站点搜索引擎之上,采样预测模块与搜索引擎输入端口互联,采样提取模块与搜索引擎输出端口互联;
该信息技术提取系统的采样范围基于互联网站点的搜索引擎面向范围,即整个数据采样、提取的方式基于网络传输;
结构化信息预测子模块通过采集预测模块型数据集、图片特征数据、文档形式数据以及立体模型类数据,非结构化信息预测子模块通过采集预测分散的参数信息、数据特征与词缀特征数据;
在整个特征采样过程中,该系统主要通过采样预测模块中结构化信息预测子模块、非结构化信息预测子模块两大类,来作为信息预测采样的依据,其中针对性采集样本的具体类别分为模块型数据集、图片特征数据、文档形式数据、立体模型类数据、参数信息、数据特征与词缀特征数据,通过对筛查、采集范围进行分类、标签化,能避免传统采样方式易出现的采样范围混乱、范围过大、过小影响样本实际参考价值以及分类错乱导致人工计算量过大的问题,提高了该系统的实用性;
采样重组模块将根据采集的各类破碎信息进行重组、整合与文档输出,采样重组模块的重组、整合与文档输出具体在交互终端上完成,采样重组模块作为该信息技术提取系统的样本输出端;
采样分类模块基于采样重组模块,采样分类模块用于将采集样品的指定检索条件、标签进行归类分列,并将采集样品根据用户需求进行针对性特征的分类;
采样分类模块建立于采样重组模块与条件筛选设定子模块之间,采样分类模块的分类依据基于条件筛选设定子模块的设定项目,采样分类模块的分类输出端与采样重组模块为数据互联状态;
如上,该系统在进行定向的采集时,采样分类模块中的具体采样分类标签,将作为采样预测模块、采样提取模块的数据提取依据,通过在采样预测模块的针对性样本筛查上,进一步对提取的样本进行分类提取,能有效缩小用户所设筛选提取条件的范围,精确性的提取出用户所需样本的关键数据,提高了该系统的提取精度,减小了系统提取后样本输出的计算量,进一步提高了该系统的实用性;
采样提取模块根据采样预测模块针对收集的信息进行提取,采样提取模块根据预设提取条件对收集的信息进行精度提取,采样提取模块包括终端交互模块、信息交互子模块、条件筛选设定子模块;
条件筛选设定子模块的设定项目包括数据类别、数据关键词缀、数据参数与数据名称;
终端交互模块的面向终端包括主机终端与个人用户终端,主机终端为该信息技术提取系统的安装主机端,个人用户终端通过互联网通信、物联网传输的方式与主机终端进行互联;
采样重组模块与终端交互模块互联,采样重组模块的重组方式将根据条件筛选设定子模块的设定项目进行重组;
在上述基础上,该系统基于互联网,并根据主机终端与个人用户终端的形式进行一对多的采样服务,其中个人用户终端具体通过物联网通信、互联网通信的方式与主机终端进行数据互传,而个人用户终端作为用户与该系统的交互端,用户通过人工操作的方式来设定样本特征采样的具体项目、分类与需求;
信息交互子模块建立于终端交互模块与采样预测模块之间,信息交互子模块根据线上数据互传的方式与采样预测模块进行互联,信息交互子模块包括储存数据库;
其中信息交互子模块与终端交互模块、采样预测模块间的数据互传,需通过储存数据库来进行数据的输入、输出,其储存数据库的形式为互联网云端存储。
Claims (9)
1.一种基于特征采样的信息技术提取系统,包括采样预测模块、采样提取模块、采样重组模块与采样分类模块,其特征在于:
所述采样预测模块针对性的对采取样本进行定向收集、线上查找与归纳采集,所述采样预测模块通过定向收集的方式对线上站点页面进行针对性的定点采集,避免冗余信息数据堆积,所述采样预测模块采样方向基于线上查找的互联网、物联网通信方式,所述采样预测模块在进行针对性定点采集时通过样品信息归类的方式对提取样品信息进行筛查;
所述采样预测模块包括结构化信息预测子模块与非结构化信息预测子模块,所述结构化信息预测子模块针对性的线上站点的模块信息进行采集预测,所述非结构化信息预测子模块针对性的对网络中非结构化的信息进行采集预测;
所述采样提取模块根据所述采样预测模块针对收集的信息进行提取,所述采样提取模块根据预设提取条件对收集的信息进行精度提取,所述采样提取模块包括终端交互模块、信息交互子模块、条件筛选设定子模块;
所述采样重组模块将根据采集的各类破碎信息进行重组、整合与文档输出,所述采样重组模块的重组、整合与文档输出具体在交互终端上完成,所述采样重组模块作为该信息技术提取系统的样本输出端;
所述采样分类模块基于所述采样重组模块,所述采样分类模块用于将采集样品的指定检索条件、标签进行归类分列,并将采集样品根据用户需求进行针对性特征的分类。
2.根据权利要求1所述的一种基于特征采样的信息技术提取系统,其特征在于:所述采样预测模块、采样提取模块建立在互联网站点搜索引擎之上,所述采样预测模块与搜索引擎输入端口互联,所述采样提取模块与搜索引擎输出端口互联。
3.根据权利要求1所述的一种基于特征采样的信息技术提取系统,其特征在于:所述结构化信息预测子模块通过采集预测模块型数据集、图片特征数据、文档形式数据以及立体模型类数据。
4.根据权利要求1所述的一种基于特征采样的信息技术提取系统,其特征在于:所述非结构化信息预测子模块通过采集预测分散的参数信息、数据特征与词缀特征数据。
5.根据权利要求1所述的一种基于特征采样的信息技术提取系统,其特征在于:所述终端交互模块的面向终端包括主机终端与个人用户终端,所述主机终端为该信息技术提取系统的安装主机端,所述个人用户终端通过互联网通信、物联网传输的方式与主机终端进行互联。
6.根据权利要求1所述的一种基于特征采样的信息技术提取系统,其特征在于:所述信息交互子模块建立于终端交互模块与采样预测模块之间,所述信息交互子模块根据线上数据互传的方式与所述采样预测模块进行互联,所述信息交互子模块包括储存数据库。
7.根据权利要求1所述的一种基于特征采样的信息技术提取系统,其特征在于:所述条件筛选设定子模块的设定项目包括数据类别、数据关键词缀、数据参数与数据名称。
8.根据权利要求7所述的一种基于特征采样的信息技术提取系统,其特征在于:所述采样重组模块与终端交互模块互联,所述采样重组模块的重组方式将根据条件筛选设定子模块的设定项目进行重组。
9.根据权利要求8所述的一种基于特征采样的信息技术提取系统,其特征在于:所述采样分类模块建立于采样重组模块与条件筛选设定子模块之间,所述采样分类模块的分类依据基于条件筛选设定子模块的设定项目,所述采样分类模块的分类输出端与采样重组模块为数据互联状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110785277.XA CN113449173A (zh) | 2021-07-12 | 2021-07-12 | 一种基于特征采样的信息技术提取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110785277.XA CN113449173A (zh) | 2021-07-12 | 2021-07-12 | 一种基于特征采样的信息技术提取系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449173A true CN113449173A (zh) | 2021-09-28 |
Family
ID=77815904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110785277.XA Pending CN113449173A (zh) | 2021-07-12 | 2021-07-12 | 一种基于特征采样的信息技术提取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449173A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023236239A1 (zh) * | 2022-06-09 | 2023-12-14 | 深圳计算科学研究院 | 一种基于多轮采样的数据筛查规则验证方法及其装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0964341A2 (en) * | 1998-06-10 | 1999-12-15 | Nippon Telegraph And Telephone Corporation | Integrated retrieval scheme for retrieving semi-structured documents |
WO2014089356A1 (en) * | 2012-12-05 | 2014-06-12 | Genepeeks, Inc. | System and method for the computational prediction of expression of single-gene phenotypes |
KR101798475B1 (ko) * | 2016-07-14 | 2017-11-16 | 주식회사 한샘이유지 | 다중 플랫폼 지원 다국어 웹문서 출판 시스템 |
CN109636303A (zh) * | 2018-10-27 | 2019-04-16 | 华中科技大学 | 一种半自动提取和结构化文档信息的存储方法及系统 |
CN112132736A (zh) * | 2020-09-30 | 2020-12-25 | 东南数字经济发展研究院 | 一种基于插值技术的加密图像可逆信息隐藏方法 |
CN112330651A (zh) * | 2020-11-13 | 2021-02-05 | 山东师范大学 | 一种基于深度学习的Logo检测方法及系统 |
-
2021
- 2021-07-12 CN CN202110785277.XA patent/CN113449173A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0964341A2 (en) * | 1998-06-10 | 1999-12-15 | Nippon Telegraph And Telephone Corporation | Integrated retrieval scheme for retrieving semi-structured documents |
WO2014089356A1 (en) * | 2012-12-05 | 2014-06-12 | Genepeeks, Inc. | System and method for the computational prediction of expression of single-gene phenotypes |
KR101798475B1 (ko) * | 2016-07-14 | 2017-11-16 | 주식회사 한샘이유지 | 다중 플랫폼 지원 다국어 웹문서 출판 시스템 |
CN109636303A (zh) * | 2018-10-27 | 2019-04-16 | 华中科技大学 | 一种半自动提取和结构化文档信息的存储方法及系统 |
CN112132736A (zh) * | 2020-09-30 | 2020-12-25 | 东南数字经济发展研究院 | 一种基于插值技术的加密图像可逆信息隐藏方法 |
CN112330651A (zh) * | 2020-11-13 | 2021-02-05 | 山东师范大学 | 一种基于深度学习的Logo检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
屈强;魏鑫;梁延华;: "一种基于敏感站点处理的Web信息检索系统", 微计算机信息, no. 27, 30 September 2006 (2006-09-30) * |
张鹏程;王杰贵;: "基于DRFM的间歇采样预测转发干扰分析", 系统工程与电子技术, no. 04, 30 June 2015 (2015-06-30) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023236239A1 (zh) * | 2022-06-09 | 2023-12-14 | 深圳计算科学研究院 | 一种基于多轮采样的数据筛查规则验证方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
CN102542061B (zh) | 一种产品的智能分类方法 | |
CN101477554A (zh) | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 | |
CN112905685B (zh) | 一种面向信息化建设的架构管控系统及设备 | |
CN110399339A (zh) | 知识库管理系统的文件分类方法、装置、设备及存储介质 | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN111708774B (zh) | 一种基于大数据的产业分析系统 | |
CN111597416A (zh) | 一种基于大数据处理的匹配推送系统 | |
CN114356967A (zh) | 一种专业情报搜集分析应用平台 | |
CN113449173A (zh) | 一种基于特征采样的信息技术提取系统 | |
CN111859108A (zh) | 一种舆情系统搜索词推荐系统 | |
CN109710730B (zh) | 一种基于自然语言分析处理的巡视信息系统及分析方法 | |
CN111026940A (zh) | 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备 | |
CN110597796A (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN114185875A (zh) | 一种基于云计算的大数据统一分析处理系统 | |
CN108520012A (zh) | 基于机器学习的移动互联网用户评论挖掘方法 | |
CN114003774A (zh) | 一种用于智慧城市的电力大数据信息采集系统 | |
CN113032653A (zh) | 一种基于大数据的舆情监测平台 | |
CN113779312A (zh) | 一种基于知识图谱的非结构化电网数据处理方法及装置 | |
Zhang | Intelligent Mining Method of Massive Digital Archives Based on Artificial Intelligence | |
KR20110026154A (ko) | 시맨틱 메타데이터를 통한 인터넷 상의 개인 특성 및 행위 분석 기술 | |
CN117909440B (zh) | 智能档案索引与检索系统 | |
CN108399205A (zh) | 一种数据高速处理转换通信方法及装置 | |
CN115640758B (zh) | 一种基于知识构建的三维模型数模质检方法 | |
CN113392302B (zh) | 一种电力外部环境检测的分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |