CN117251499B - 一种数据采集系统 - Google Patents
一种数据采集系统 Download PDFInfo
- Publication number
- CN117251499B CN117251499B CN202311516859.3A CN202311516859A CN117251499B CN 117251499 B CN117251499 B CN 117251499B CN 202311516859 A CN202311516859 A CN 202311516859A CN 117251499 B CN117251499 B CN 117251499B
- Authority
- CN
- China
- Prior art keywords
- information
- acquisition
- data source
- analysis
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000032683 aging Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000005457 optimization Methods 0.000 claims abstract description 35
- 238000012937 correction Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 230000036962 time dependent Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种数据采集系统,尤其涉及信息采集技术领域,包括,信息获取模块,用以获取政务信息的数据来源、发布时间和数据信息;信息分析模块,用以对时效参数进行分析,还用以对简化标题进行分析;采集分析模块,用以对政务信息的采集方式进行分析;分析调整模块,用以对政务信息的采集方式的分析过程进行调整;分析优化模块,用以对政务信息的采集方式的调整过程进行优化;信息采集模块,用以对政务信息进行采集;采集反馈模块,用以获取采集后的政务信息的使用情况,并对政务信息的采集方式的优化过程进行校正。本发明实现了对数据采集来源的分析以对数据进行采集,解决了对数据采集分析效率低,采集不准确的问题。
Description
技术领域
本发明涉及信息采集技术领域,尤其涉及一种数据采集系统。
背景技术
随着互联网的发展,互联网上的数据信息越来越多,其内容多样,覆盖面广,在人们进行信息采集的时候,无法准确的获取到自己需要的信息数据,需要提高信息数据获取的精度和效率。
中国专利公开号:CN114282065A公开了一种政务大数据平台数据采集方法,包括:S1、将目标网页系统按照网页文档结构生成XML文档或者解析成可读取的第一文本文档;S2、采集源数据并根据预设要求判断源数据的类别,若源数据的类别为纸质数据,则对纸质数据进行ocr识别,解析成可读取的第二文本文档;S3、建立XML文档、第一文本文档和第二文本文档与目标网页系统的接口一一对应,配置提交网页系统与目标网页系统数据接口的映射关系;S4、根据映射关系,将XML文档、第一文本文档和第二文本文档自动录入到提交网页系统中;S5、判断提交网页系统内的信息是否全部录入完毕,若是,则自动提交,反之,重复S4。该发明实现了对数据源数据采集录入的分析,未实现对数据源内容质量及稳定性的分析,存在对数据采集分析效率低,采集不准确的问题。
发明内容
为此,本发明提供一种数据采集系统,用以克服现有技术中对数据采集分析效率低,采集不准确的问题。
为实现上述目的,本发明提供一种数据采集系统,包括:
信息获取模块,用以获取政务信息的数据来源、发布时间和数据信息;
信息分析模块,用以根据数据信息和发布时间对时效参数进行分析,还用以根据数据信息对简化标题进行分析;
采集分析模块,用以根据时效参数和简化标题对政务信息的采集方式进行分析;
分析调整模块,用以根据简化标题、数据来源和数据信息对数据源质量进行分析,并根据数据源质量对政务信息的采集方式的分析过程进行调整;所述分析调整模块设有相似度分析单元,其用以根据简化标题和数据来源对标题相似度进行分析;所述分析调整模块还设有质量分析单元,其用以根据标题相似度、数据来源和信息内容对数据源质量进行分析;所述分析调整模块还设有采集调整单元,其用以根据数据源质量对政务信息的采集方式的分析过程进行调整;
分析优化模块,用以根据数据来源和发布时间对数据源稳定性进行分析,并根据数据源稳定性对政务信息的采集方式的调整过程进行优化;
信息采集模块,用以根据政务信息的采集方式对政务信息进行采集;
采集反馈模块,用以获取采集后的政务信息的使用情况,并根据采集后的政务信息的使用情况对政务信息的采集方式的优化过程进行校正。
进一步地,所述信息分析模块设有时效分析单元,其用以根据预设时效关键词和信息内容对终止时间进行分析,其中:
当信息内容中存在预设时效关键词时,所述时效分析单元将预设时效关键词对应的信息内容中的文字作为终止时间;
当信息内容中不存在预设时效关键词时,所述时效分析单元判定不存在终止时间;
所述时效分析单元根据是否存在终止时间对时效参数进行分析,其中:
当存在终止时间时,所述时效分析单元将当前时间和发布时间之间的时间间隔作为已发布时间,将终止时间和当前时间的时间间隔作为剩余时效时间,并根据已发布时间和剩余时效时间对时效参数进行分析,设定T=y1/y2;
当不存在终止时间时,所述时效分析单元对时效参数T进行分析,设定T=1。
进一步地,所述信息分析模块还设有标题分析单元,其用以根据预设标题关键词对信息标题进行分析,其中:
当信息标题中存在预设标题关键词时,所述标题分析单元去除信息标题中的预设标题关键词,将去除预设标题关键词后的信息标题作为简化标题;
当信息标题中不存在预设标题关键词时,所述标题分析单元不对信息标题进行去除操作。
进一步地,所述采集分析模块根据时效参数和简化标题的字数对采集参数C进行分析,设定C=T/logL(A);
所述采集分析模块将采集参数与采集阈值进行比对,并根据比对结果对政务信息的采集方式进行分析,其中:
当C≥c时,所述采集分析模块判定对政务信息进行采集;
当C<c时,所述采集分析模块判定不对政务信息进行采集;
其中c表示采集阈值,其取值范围为0.6≤c<1。
进一步地,所述相似度分析单元根据简化标题和数据来源对标题相似度进行分析,其中:
当数据来源不同时,所述相似度分析单元对标题相似度Q进行分析,设定Q=2×s/[L(a1)+L(a2)];
当数据来源相同时,所述相似度分析单元不对标题相似度Q进行分析,设定Q=0;
其中,s表示数据来源不同的两个简化标题中相同文字数量,L(a1)和L(a2)分别表示数据来源不同的两个简化标题的字数,a1和a2分别表示数据来源不同的两个简化标题。
进一步地,所述质量分析单元将标题相似度与相似度阈值进行比对,并根据比对结果、数据来源和信息内容对数据源质量进行分析,其中:
当Q≥q时,所述质量分析单元将数据来源不同的两个信息内容进行比对,将比对结果作为数据源质量;
当Q<q时,所述质量分析单元不对数据源质量进行分析;
所述质量分析单元在对数据源质量进行分析时,根据的标点符号对数据来源为官方网站的信息内容进行分句处理,得到多组短句,并将短句与数据来源为社交媒体的信息内容进行匹配,根据匹配结果对数据源质量进行分析,其中:
当数据来源为社交媒体的信息内容中存在短句时,所述质量分析单元对数据来源为社交媒体的信息内容中存在短句的数量进行统计,并根据统计结果对数据源质量W进行分析,设定W=Q×w1/w;
当数据来源为社交媒体的信息内容中不存在短句时,所述质量分析单元不对数据来源为社交媒体的信息内容中存在短句的数量进行统计;
其中,w1表示数据来源为社交媒体的信息内容中存在短句的数量,w表示短句的数量。
进一步地,所述采集调整单元其用以根据数据源质量对采集阈值进行调整,调整后的采集阈值为c1,设定c1=c/W。
进一步地,所述分析优化模块设有稳定性分析单元,其用以根据数据来源和发布时间对数据源稳定性进行分析,所述稳定性分析单元将数据来源相同的发布时间的数量作为发布数量,并将各相邻的发布时间的时间间隔作为发布间隔,将最后一次发布时间与当前时间的时间间隔作为未发布间隔,并根据发布数量、发布间隔和未发布间隔对数据源稳定性进行R分析,设定R=[t12+t23+...+t(j-1)j]/(j-1)/tj,其中,t12表示第一次发布和第二次发布的发布间隔,t23表示第二次发布和第三次发布的发布间隔,t(j-1)j表示倒数第二次发布和最后一次发布的发布间隔,j表示发布数量,/tj表示未发布间隔。
进一步地,所述分析优化模块还设有采集优化单元,其用以根据数据源稳定性与稳定性阈值进行比对,并根据比对结果对采集阈值的调整过程进行优化,其中:
当R≥r时,所述采集优化单元判定数据源稳定,不对采集阈值的调整过程进行优化;
当R<r时,所述采集优化单元判定数据源不稳定,对采集阈值的调整过程进行优化,优化后采集阈值为c2,设定c2=c1/R;
其中,r表示稳定性阈值,其取值范围为0.8≤r≤1。
进一步地,所述采集反馈模块根据采集后的政务信息的使用情况对采集阈值的优化过程进行校正,其中:
当D1/(D1+D2)>d时,所述采集反馈模块判定使用情况正常,不对采集阈值的优化过程进行校正;
当D1/(D1+D2)≤d时,所述采集反馈模块判定使用情况异常,对采集阈值的优化过程进行校正,校正后的采集阈值为c3,设定c3=c2×2×D1/(D1+D2);
其中,D1表示使用情况为已使用的采集后的政务信息数量,D2表示使用情况为未使用的采集后的政务信息数量,d表示校正阈值,其取值范围为0.8≤d<1。
与现有技术相比,本发明的有益效果在于,通过所述信息获取模块对政务信息的数据来源、发布时间和数据信息的获取,以提高信息获取的准确度,从而提高信息采集的分析效率,提高采集的准确度,通过所述信息分析模块对数据信息和发布时间的分析,以分析出时效参数和简化标题,保证信息的时效性和准确度,从而提高信息采集的分析效率,提高采集的准确度,通过所述采集分析模块对时效参和简化标题的分析,以对政务信息的采集方式进行分析,从而提高信息采集的分析效率,提高采集的准确度,通过所述分析调整模块对简化标题、数据来源和数据信息的分析,以分析出数据源质量,保证数据源数据信息的完整度,从而对采集方式的分析过程进行调整,进而提高信息采集的分析效率,提高采集的准确度,通过所述分析优化模块对数据来源和发布时间的分析,以分析出数据源稳定性,保证数据源数据信息的发布的稳定性,减少发布中断或维护对数据采集的影响,进而提高信息采集的分析效率,提高采集的准确度,通过所述信息采集模块对政务信息的采集方式的分析,以对政务信息进行采集,从而提高信息采集的分析效率,提高采集的准确度,通过所述采集反馈模块对采集后的政务信息的使用情况的获取,以对政务信息的采集方式进行校正,减少数据采集后出现多数未使用的情况,从而提高信息采集的分析效率,提高采集的准确度。
附图说明
图1为本实施例数据采集系统的结构框图;
图2为本实施例信息分析模块的结构框图;
图3为本实施例分析调整模块的结构框图;
图4为本实施例分析优化模块的结构框图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本实施例一种数据采集系统,包括:
信息获取模块,用以获取政务信息的数据来源、发布时间和数据信息,所述数据信息包括信息标题和信息内容,所述数据来源包括官方网站和社交媒体,所述数据来源和数据信息的获取方式为通过爬虫技术自动抓取信息来源上发布的信息;
信息分析模块,用以根据数据信息和发布时间对时效参数进行分析,所述信息分析模块还用以根据数据信息对简化标题进行分析,信息分析模块与所述信息获取模块连接;
采集分析模块,用以根据时效参数和简化标题对政务信息的采集方式进行分析,采集分析模块与所述信息分析模块连接;
分析调整模块,用以根据简化标题、数据来源和数据信息对数据源质量进行分析,并根据数据源质量对政务信息的采集方式的分析过程进行调整,分析调整模块与所述采集分析模块连接;
分析优化模块,用以根据数据来源和发布时间对数据源稳定性进行分析,并根据数据源稳定性对政务信息的采集方式的调整过程进行优化,分析优化模块与所述分析调整模块连接;
信息采集模块,用以根据政务信息的采集方式对政务信息进行采集,信息采集模块与所述分析优化模块连接;
采集反馈模块,用以获取采集后的政务信息的使用情况,并根据采集后的政务信息的使用情况对政务信息的采集方式的优化过程进行校正,采集反馈模块与所述信息采集模块连接,所述使用情况包括已使用和未使用。
请参阅图2所示,所述信息分析模块包括:
时效分析单元,用以根据信息内容和发布时间对时效参数进行分析;
标题分析单元,用以根据信息标题对简化标题进行分析,标题分析单元与所述时效分析单元连接。
请参阅图3所示,所述分析调整模块包括:
相似度分析单元,用以根据简化标题和数据来源对标题相似度进行分析;
质量分析单元,用以根据标题相似度、数据来源和信息内容对数据源质量进行分析,质量分析单元与所述相似度分析单元连接;
采集调整单元,用以根据数据源质量对政务信息的采集方式的分析过程进行调整,采集调整单元与所述质量分析单元连接。
请参阅图4所示,所述分析优化模块包括:
稳定性分析单元,用以根据数据来源和发布时间对数据源稳定性进行分析;
采集优化单元,用以根据数据源稳定性对政务信息的采集方式的调整过程进行优化,采集优化单元与所述稳定性分析单元连接。
具体而言,本实施例中通过所述信息获取模块对政务信息的数据来源、发布时间和数据信息的获取,以提高信息获取的准确度,从而提高信息采集的分析效率,提高采集的准确度,通过所述信息分析模块对数据信息和发布时间的分析,以分析出时效参数和简化标题,保证信息的时效性和准确度,从而提高信息采集的分析效率,提高采集的准确度,通过所述采集分析模块对时效参和简化标题的分析,以对政务信息的采集方式进行分析,从而提高信息采集的分析效率,提高采集的准确度,通过所述分析调整模块对简化标题、数据来源和数据信息的分析,以分析出数据源质量,保证数据源数据信息的完整度,从而对采集方式的分析过程进行调整,进而提高信息采集的分析效率,提高采集的准确度,通过所述分析优化模块对数据来源和发布时间的分析,以分析出数据源稳定性,保证数据源数据信息的发布的稳定性,减少发布中断或维护对数据采集的影响,进而提高信息采集的分析效率,提高采集的准确度,通过所述信息采集模块对政务信息的采集方式的分析,以对政务信息进行采集,从而提高信息采集的分析效率,提高采集的准确度,通过所述采集反馈模块对采集后的政务信息的使用情况的获取,以对政务信息的采集方式进行校正,减少数据采集后出现多数未使用的情况,从而提高信息采集的分析效率,提高采集的准确度。
具体而言,本实施例中所述时效分析单元根据预设时效关键词和信息内容对终止时间进行分析,其中:
当信息内容中存在预设时效关键词时,所述时效分析单元将预设时效关键词对应的信息内容中的文字作为终止时间;
当信息内容中不存在预设时效关键词时,所述时效分析单元判定不存在终止时间。
具体而言,本实施例中所述时效分析单元根据是否存在终止时间对时效参数进行分析,其中:
当存在终止时间时,所述时效分析单元将当前时间和发布时间之间的时间间隔作为已发布时间,将终止时间和当前时间的时间间隔作为剩余时效时间,并根据已发布时间和剩余时效时间对时效参数进行分析,设定T=y1/y2;
当不存在终止时间时,所述时效分析单元对时效参数T进行分析,设定T=1;
其中,y1表示已发布时间,y2表示剩余时效时间。
可以理解的是,本实施例中不对预设时效关键词的设置作具体限定,本领域技术人员可自由设置,本实施例中预设时效关键词采用如“...年...月...日为止”等关键词对终止时间进行直接提取,还可设置为如“...个月后为止”等根据发布时间可计算出终止时间的关键词,只需满足对终止时间的提起即可。
具体而言,本实施例中通过所述时效分析单元对对信息内容的分析,以分析出信息内容中的终止时间,从而分析出时效参数,使时效参数与获取的信息的已发布时间和剩余失效时间相关,从而提高信息采集的分析效率,提高采集的准确度。
具体而言,本实施例中所述标题分析单元根据预设标题关键词对信息标题进行分析,其中:
当信息标题中存在预设标题关键词时,所述标题分析单元去除信息标题中的预设标题关键词,将去除预设标题关键词后的信息标题作为简化标题;
当信息标题中不存在预设标题关键词时,所述标题分析单元不对信息标题进行去除操作。
可以理解的是,本实施例中不对预设标题关键词的内容作具体限定,本领域技术人员可自由设置,如可将预设标题关键词设置为“为了”、“对于”和“自从”等介词,还可将预设标题关键词设置为“漂亮的”、“高兴地”和“满意的”等形容词,只需满足对信息标题的简化即可。
具体而言,本实施例中通过所述标题分析单元对信息标题的分析,以去除信息标题中无用的词语,是信息标题更加简单,形成简化标题,减少获取的数据信息中出现标题与内容不符或标题未能简单精炼的概括信息内容的情况对采集的影响,从而提高信息采集的分析效率,提高采集的准确度。
具体而言,本实施例中所述采集分析模块根据时效参数和简化标题的字数对采集参数C进行分析,设定C=T/logL(A),其中,L(A)表示简化标题的字数,A表示简化标题。
具体而言,本实施例中所述采集分析模块将采集参数与采集阈值进行比对,并根据比对结果对政务信息的采集方式进行分析,其中:
当C≥c时,所述采集分析模块判定对政务信息进行采集;
当C<c时,所述采集分析模块判定不对政务信息进行采集;
其中c表示采集阈值,其取值范围为0.6≤c<1。可以理解的是,本实施例中不对采集阈值的取值作具体限定,本领域技术人员可自由设置,只需满足对政务信息的采集方式的分析即可,采集阈值的最佳取值为:c=0.7。
具体而言,本实施例中通过所述采集分析模块对时效参数和简化参数的分析,以分析出采集参数,从而对政务信息的采集方式进行分析,进而提高信息采集的分析效率,提高采集的准确度。
具体而言,本实施例中所述相似度分析单元根据简化标题和数据来源对标题相似度进行分析,其中:
当数据来源不同时,所述相似度分析单元对标题相似度Q进行分析,设定Q=2×s/[L(a1)+L(a2)];
当数据来源相同时,所述相似度分析单元不对标题相似度Q进行分析,设定Q=0;
其中,s表示数据来源不同的两个简化标题中相同文字数量,L(a1)和L(a2)分别表示数据来源不同的两个简化标题的字数,a1和a2分别表示数据来源不同的两个简化标题。
具体而言,本实施例中通过所述相似度分析单元对简化标题和数据来源的分析,以分析出数据来源不同的数据信息的相似度,分析出同一个数据信息在不同平台发布的相似度,从而提高信息采集的分析效率,提高采集的准确度。
具体而言,本实施例中所述质量分析单元将标题相似度与相似度阈值进行比对,并根据比对结果、数据来源和信息内容对数据源质量进行分析,其中:
当Q≥q时,所述质量分析单元将数据来源不同的两个信息内容进行比对,将比对结果作为数据源质量;
当Q<q时,所述质量分析单元不对数据源质量进行分析;
其中,q表示相似度阈值,其取值范围为:0.9≤q<1。可以理解的是,本实施例中不对相似度阈值的取值作具体限定,本领域技术人员可自由设置,只需满足对数据源质量的分析即可,相似度阈值的最佳取值为:q=0.9。
具体而言,本实施例中所述质量分析单元在对数据源质量进行分析时,根据的标点符号对数据来源为官方网站的信息内容进行分句处理,得到多组短句,并将短句与数据来源为社交媒体的信息内容进行匹配,根据匹配结果对数据源质量进行分析,其中:
当数据来源为社交媒体的信息内容中存在短句时,所述质量分析单元对数据来源为社交媒体的信息内容中存在短句的数量进行统计,并根据统计结果对数据源质量W进行分析,设定W=Q×w1/w;
当数据来源为社交媒体的信息内容中不存在短句时,所述质量分析单元不对数据来源为社交媒体的信息内容中存在短句的数量进行统计;
其中,w1表示数据来源为社交媒体的信息内容中存在短句的数量,w表示短句的数量。
具体而言,本实施例中通过所述质量分析单元对标题相似度的分析,以对数据源质量进行分析,分析出社交媒体转载数据信息是否进行修改等操作,保证数据信息的完整度,从而提高信息采集的分析效率,提高采集的准确度。
具体而言,本实施例中所述采集调整单元根据数据源质量对采集阈值进行调整,调整后的采集阈值为c1,设定c1=c/W。
具体而言,本实施例中通过所述采集调整单元对数据源质量的分析,以对采集阈值进行调整,使采集阈值与数据源质量的比值相关,减少对数据源质量低的数据信息的采集数量,从而提高信息采集的分析效率,提高采集的准确度。
具体而言,本实施例中所述稳定性分析单元根据数据来源和发布时间对数据源稳定性进行分析,所述稳定性分析单元将数据来源相同的发布时间的数量作为发布数量,并将各相邻的发布时间的时间间隔作为发布间隔,将最后一次发布时间与当前时间的时间间隔作为未发布间隔,并根据发布数量、发布间隔和未发布间隔对数据源稳定性进行R分析,设定R=[t12+t23+...+t(j-1)j]/(j-1)/tj,其中,t12表示第一次发布和第二次发布的发布间隔,t23表示第二次发布和第三次发布的发布间隔,t(j-1)j表示倒数第二次发布和最后一次发布的发布间隔,j表示发布数量,/tj表示未发布间隔。
具体而言,本实施例中通过所述稳定性分析单元对数据来源和发布时间的分析,分析出数据源稳定性,使数据源稳定性与发布间隔相关,从而提高信息采集的分析效率,提高采集的准确度。
具体而言,本实施例中所述采集优化单元根据数据源稳定性与稳定性阈值进行比对,并根据比对结果对采集阈值的调整过程进行优化,其中:
当R≥r时,所述采集优化单元判定数据源稳定,不对采集阈值的调整过程进行优化;
当R<r时,所述采集优化单元判定数据源不稳定,对采集阈值的调整过程进行优化,优化后采集阈值为c2,设定c2=c1/R;
其中,r表示稳定性阈值,其取值范围为0.8≤r≤1。可以理解的是,本实施例中不对稳定性阈值的取值作具体限定,本领域技术人员可自由设置,只需满足对对采集阈值的优化即可,稳定性阈值的最佳取值为:r=0.9。
具体而言,本实施例中通过所述采集优化单元对数据源稳定性的分析,以对采集阈值进行优化,分析出数据源是否存在断更、维护等问题,减少对数据源稳定性低的数据信息的采集,从而提高信息采集的分析效率,提高采集的准确度。
具体而言,本实施例中所述采集反馈模块根据采集后的政务信息的使用情况对采集阈值的优化过程进行校正,其中:
当D1/(D1+D2)>d时,所述采集反馈模块判定使用情况正常,不对采集阈值的优化过程进行校正;
当D1/(D1+D2)≤d时,所述采集反馈模块判定使用情况异常,对采集阈值的优化过程进行校正,校正后的采集阈值为c3,设定c3=c2×2×D1/(D1+D2);
其中,D1表示使用情况为已使用的采集后的政务信息数量,D2表示使用情况为未使用的采集后的政务信息数量,d表示校正阈值,其取值范围为0.8≤d<1。可以理解的是,本实施例中不对校正阈值的取值作具体限定,本领域技术人员可自由设置,只需满足对采集阈值的校正即可,校正阈值的最佳取值为:d=0.85。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (6)
1.一种数据采集系统,其特征在于,包括:
信息获取模块,用以获取政务信息的数据来源、发布时间和数据信息;
信息分析模块,用以根据数据信息和发布时间对时效参数进行分析,还用以根据数据信息对简化标题进行分析;
采集分析模块,用以根据时效参数和简化标题对政务信息的采集方式进行分析;
分析调整模块,用以根据简化标题、数据来源和数据信息对数据源质量进行分析,并根据数据源质量对政务信息的采集方式的分析过程进行调整;所述分析调整模块设有相似度分析单元,其用以根据简化标题和数据来源对标题相似度进行分析;所述分析调整模块还设有质量分析单元,其用以根据标题相似度、数据来源和信息内容对数据源质量进行分析;所述分析调整模块还设有采集调整单元,其用以根据数据源质量对政务信息的采集方式的分析过程进行调整;
分析优化模块,用以根据数据来源和发布时间对数据源稳定性进行分析,并根据数据源稳定性对政务信息的采集方式的调整过程进行优化;
信息采集模块,用以根据政务信息的采集方式对政务信息进行采集;
采集反馈模块,用以获取采集后的政务信息的使用情况,并根据采集后的政务信息的使用情况对政务信息的采集方式的优化过程进行校正;
所述信息分析模块设有时效分析单元,其用以根据预设时效关键词和信息内容对终止时间进行分析,其中:
当信息内容中存在预设时效关键词时,所述时效分析单元将预设时效关键词对应的信息内容中的文字作为终止时间;
当信息内容中不存在预设时效关键词时,所述时效分析单元判定不存在终止时间;
所述时效分析单元根据是否存在终止时间对时效参数进行分析,其中:
当存在终止时间时,所述时效分析单元将当前时间和发布时间之间的时间间隔作为已发布时间,将终止时间和当前时间的时间间隔作为剩余时效时间,并根据已发布时间和剩余时效时间对时效参数进行分析,设定T=y1/y2;
当不存在终止时间时,所述时效分析单元对时效参数T进行分析,设定T=1;
其中,y1表示已发布时间,y2表示剩余时效时间;
所述采集分析模块根据时效参数和简化标题的字数对采集参数C进行分析,设定C=T/logL(A),其中,L(A)表示简化标题的字数,A表示简化标题;
所述采集分析模块将采集参数与采集阈值进行比对,并根据比对结果对政务信息的采集方式进行分析,其中:
当C≥c时,所述采集分析模块判定对政务信息进行采集;
当C<c时,所述采集分析模块判定不对政务信息进行采集;
其中,c表示采集阈值,其取值范围为0.6≤c<1;
所述质量分析单元将标题相似度与相似度阈值进行比对,并根据比对结果、数据来源和信息内容对数据源质量进行分析,其中:
当Q≥q时,所述质量分析单元将数据来源不同的两个信息内容进行比对,将比对结果作为数据源质量;
当Q<q时,所述质量分析单元不对数据源质量进行分析;
其中,Q表示标题相似度,q表示相似度阈值,其取值范围为:0.9≤q<1;
所述质量分析单元在对数据源质量进行分析时,根据的标点符号对数据来源为官方网站的信息内容进行分句处理,得到多组短句,并将短句与数据来源为社交媒体的信息内容进行匹配,根据匹配结果对数据源质量进行分析,其中:
当数据来源为社交媒体的信息内容中存在短句时,所述质量分析单元对数据来源为社交媒体的信息内容中存在短句的数量进行统计,并根据统计结果对数据源质量W进行分析,设定W=Q×w1/w;
当数据来源为社交媒体的信息内容中不存在短句时,所述质量分析单元不对数据来源为社交媒体的信息内容中存在短句的数量进行统计;
其中,w1表示数据来源为社交媒体的信息内容中存在短句的数量,w表示短句的数量;
所述分析优化模块设有稳定性分析单元,其用以根据数据来源和发布时间对数据源稳定性进行分析,所述稳定性分析单元将数据来源相同的发布时间的数量作为发布数量,并将各相邻的发布时间的时间间隔作为发布间隔,将最后一次发布时间与当前时间的时间间隔作为未发布间隔,并根据发布数量、发布间隔和未发布间隔对数据源稳定性进行R分析,设定R=[t12+t23+...+t(j-1)j]/(j-1)/tj,其中,t12表示第一次发布和第二次发布的发布间隔,t23表示第二次发布和第三次发布的发布间隔,t(j-1)j表示倒数第二次发布和最后一次发布的发布间隔,j表示发布数量,tj表示未发布间隔。
2.根据权利要求1所述的数据采集系统,其特征在于,所述信息分析模块还设有标题分析单元,其用以根据预设标题关键词对信息标题进行分析,其中:
当信息标题中存在预设标题关键词时,所述标题分析单元去除信息标题中的预设标题关键词,将去除预设标题关键词后的信息标题作为简化标题;
当信息标题中不存在预设标题关键词时,所述标题分析单元不对信息标题进行去除操作。
3.根据权利要求1所述的数据采集系统,其特征在于,所述相似度分析单元根据简化标题和数据来源对标题相似度进行分析,其中:
当数据来源不同时,所述相似度分析单元对标题相似度Q进行分析,设定Q=2×s/[L(a1)+L(a2)];
当数据来源相同时,所述相似度分析单元不对标题相似度Q进行分析,设定Q=0;
其中,s表示数据来源不同的两个简化标题中相同文字数量,L(a1)和L(a2)分别表示数据来源不同的两个简化标题的字数,a1和a2分别表示数据来源不同的两个简化标题。
4.根据权利要求1所述的数据采集系统,其特征在于,所述采集调整单元其用以根据数据源质量对采集阈值进行调整,调整后的采集阈值为c1,设定c1=c/W。
5.根据权利要求1所述的数据采集系统,其特征在于,所述分析优化模块还设有采集优化单元,其用以根据数据源稳定性与稳定性阈值进行比对,并根据比对结果对采集阈值的调整过程进行优化,其中:
当R≥r时,所述采集优化单元判定数据源稳定,不对采集阈值的调整过程进行优化;
当R<r时,所述采集优化单元判定数据源不稳定,对采集阈值的调整过程进行优化,优化后采集阈值为c2,设定c2=c1/R;
其中,r表示稳定性阈值,其取值范围为0.8≤r≤1。
6.根据权利要求5所述的数据采集系统,其特征在于,所述采集反馈模块根据采集后的政务信息的使用情况对采集阈值的优化过程进行校正,其中:
当D1/(D1+D2)>d时,所述采集反馈模块判定使用情况正常,不对采集阈值的优化过程进行校正;
当D1/(D1+D2)≤d时,所述采集反馈模块判定使用情况异常,对采集阈值的优化过程进行校正,校正后的采集阈值为c3,设定c3=c2×2×D1/(D1+D2);
其中,D1表示使用情况为已使用的采集后的政务信息数量,D2表示使用情况为未使用的采集后的政务信息数量,d表示校正阈值,其取值范围为0.8≤d<1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311516859.3A CN117251499B (zh) | 2023-11-15 | 2023-11-15 | 一种数据采集系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311516859.3A CN117251499B (zh) | 2023-11-15 | 2023-11-15 | 一种数据采集系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117251499A CN117251499A (zh) | 2023-12-19 |
CN117251499B true CN117251499B (zh) | 2024-02-06 |
Family
ID=89131638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311516859.3A Active CN117251499B (zh) | 2023-11-15 | 2023-11-15 | 一种数据采集系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117251499B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017166644A1 (zh) * | 2016-03-31 | 2017-10-05 | 乐视控股(北京)有限公司 | 一种数据采集方法和系统 |
KR102009029B1 (ko) * | 2019-06-21 | 2019-08-09 | 주식회사 코드라인 | 특징정보 비교분석을 통한 콘텐츠 필터링 시스템 |
CN111291102A (zh) * | 2020-01-16 | 2020-06-16 | 大汉软件股份有限公司 | 一种政务数据挖掘的高性能规模统计计算方法 |
CN111723082A (zh) * | 2020-05-25 | 2020-09-29 | 贵州华泰智远大数据服务有限公司 | 一种基于溯源分析技术的数据质量监察系统 |
CN113836374A (zh) * | 2020-06-08 | 2021-12-24 | 上海政谱科技有限公司 | 一种基于大数据的实时政务数据处理系统 |
CN114282065A (zh) * | 2021-12-22 | 2022-04-05 | 重庆汇博利农科技有限公司 | 一种政务大数据平台数据采集方法 |
CN114385437A (zh) * | 2021-12-10 | 2022-04-22 | 微梦创科网络科技(中国)有限公司 | 数据质量分析系统及方法 |
EP4009188A1 (en) * | 2020-12-04 | 2022-06-08 | Amadeus S.A.S. | Processing search requests |
CN116109322A (zh) * | 2022-10-31 | 2023-05-12 | 金蝶征信有限公司 | 数据采集方法、数据采集设备以及计算机可读存储介质 |
CN116702135A (zh) * | 2023-06-19 | 2023-09-05 | 江西穗财科技有限公司 | 一种基于大数据的政务数据监控分析处理方法及系统 |
CN116756623A (zh) * | 2023-08-15 | 2023-09-15 | 尚德软件股份有限公司 | 一种信息分类方法及系统 |
CN116777690A (zh) * | 2023-05-26 | 2023-09-19 | 安徽大学 | 一种基于多模态数据分析的大学生党员继续教育跟踪评价系统及方法 |
CN116823469A (zh) * | 2023-06-23 | 2023-09-29 | 北京尚谷彤邺科技发展有限公司 | 一种基于大数据的金融交易平台及其交易方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100996131B1 (ko) * | 2005-03-11 | 2010-11-24 | 야후! 인크. | 리스팅 관리 시스템 및 방법 |
WO2016141491A1 (en) * | 2015-03-10 | 2016-09-15 | Royal Bank Of Canada | Systems and methods for managing data |
US20170351845A1 (en) * | 2016-06-01 | 2017-12-07 | Invio, Inc. | Research study data acquisition and quality control systems and methods |
TW202135094A (zh) * | 2020-03-05 | 2021-09-16 | 大陸商廣州快決測信息科技有限公司 | 一種數據採集方法和系統 |
-
2023
- 2023-11-15 CN CN202311516859.3A patent/CN117251499B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017166644A1 (zh) * | 2016-03-31 | 2017-10-05 | 乐视控股(北京)有限公司 | 一种数据采集方法和系统 |
KR102009029B1 (ko) * | 2019-06-21 | 2019-08-09 | 주식회사 코드라인 | 특징정보 비교분석을 통한 콘텐츠 필터링 시스템 |
CN111291102A (zh) * | 2020-01-16 | 2020-06-16 | 大汉软件股份有限公司 | 一种政务数据挖掘的高性能规模统计计算方法 |
CN111723082A (zh) * | 2020-05-25 | 2020-09-29 | 贵州华泰智远大数据服务有限公司 | 一种基于溯源分析技术的数据质量监察系统 |
CN113836374A (zh) * | 2020-06-08 | 2021-12-24 | 上海政谱科技有限公司 | 一种基于大数据的实时政务数据处理系统 |
EP4009188A1 (en) * | 2020-12-04 | 2022-06-08 | Amadeus S.A.S. | Processing search requests |
CN114385437A (zh) * | 2021-12-10 | 2022-04-22 | 微梦创科网络科技(中国)有限公司 | 数据质量分析系统及方法 |
CN114282065A (zh) * | 2021-12-22 | 2022-04-05 | 重庆汇博利农科技有限公司 | 一种政务大数据平台数据采集方法 |
CN116109322A (zh) * | 2022-10-31 | 2023-05-12 | 金蝶征信有限公司 | 数据采集方法、数据采集设备以及计算机可读存储介质 |
CN116777690A (zh) * | 2023-05-26 | 2023-09-19 | 安徽大学 | 一种基于多模态数据分析的大学生党员继续教育跟踪评价系统及方法 |
CN116702135A (zh) * | 2023-06-19 | 2023-09-05 | 江西穗财科技有限公司 | 一种基于大数据的政务数据监控分析处理方法及系统 |
CN116823469A (zh) * | 2023-06-23 | 2023-09-29 | 北京尚谷彤邺科技发展有限公司 | 一种基于大数据的金融交易平台及其交易方法 |
CN116756623A (zh) * | 2023-08-15 | 2023-09-15 | 尚德软件股份有限公司 | 一种信息分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117251499A (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7106905B2 (en) | Systems and methods for processing text-based electronic documents | |
Taghva et al. | OCRSpell: an interactive spelling correction system for OCR errors in text | |
US7171061B2 (en) | Systems and methods for triage of passages of text output from an OCR system | |
CN1954315B (zh) | 用于将汉语拼音翻译成汉字的系统和方法 | |
CN102956231B (zh) | 基于半自动校正的语音关键信息记录装置及方法 | |
US10474642B2 (en) | Multibyte heterogeneous log preprocessing | |
US20070220063A1 (en) | Event data translation system | |
US20040193520A1 (en) | Automated understanding and decomposition of table-structured electronic documents | |
CN111125484A (zh) | 话题发现方法、系统及电子设备 | |
CN111539414B (zh) | 一种ocr图像字符识别和字符校正的方法及系统 | |
CN111814779A (zh) | 一种票据文本识别方法、装置、设备及存储介质 | |
CN107133208B (zh) | 一种实体抽取的方法及装置 | |
CN117251499B (zh) | 一种数据采集系统 | |
CN116702702B (zh) | 一种基于xml的自动排版方法及系统 | |
CN112860957A (zh) | 一种定值单的核对方法、介质及系统 | |
US6167367A (en) | Method and device for automatic error detection and correction for computerized text files | |
CN115774805A (zh) | 一种基于数字化处理的档案智能查询方法及系统 | |
CN115983202A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN114510925A (zh) | 一种中文文本纠错方法、系统、终端设备及存储介质 | |
CN103425976A (zh) | 一种临床病例报告表识别系统及识别方法 | |
CN109614621B (zh) | 一种校正文本的方法、装置及设备 | |
CN112015889A (zh) | 通过文本摘要技术生成的阅读辅导系统 | |
CN116522966B (zh) | 基于多语言词条的文本翻译方法及系统 | |
CN117235206B (zh) | 一种基于深度学习的政策匹配方法 | |
EP1365331A2 (en) | Determination of a semantic snapshot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |