CN109063054A - 一种机器学习和大数据处理系统 - Google Patents
一种机器学习和大数据处理系统 Download PDFInfo
- Publication number
- CN109063054A CN109063054A CN201810796182.6A CN201810796182A CN109063054A CN 109063054 A CN109063054 A CN 109063054A CN 201810796182 A CN201810796182 A CN 201810796182A CN 109063054 A CN109063054 A CN 109063054A
- Authority
- CN
- China
- Prior art keywords
- unit
- information
- output end
- input terminal
- connect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种机器学习和大数据处理系统,包括数据接入单元、数据库、数据存储单元、信息处理单元、信息分类单元、信息读取单元、信息整理单元、信息优化单元、信息筛选单元、智能审核单元和人工审核单元,所述数据库与数据存储单元双向连接,信息优化单元的输出端与信息筛选单元的输入端连接,信息筛选单元的输出端与智能审核单元的输入端连接,智能审核单元的输出端与人工审核单元的输入端连接,人工审核单元的输出端与数据存储单元的输入端连接,数据存储单元的输入端与信息处理单元的输出端连接。本发明设计巧妙,设计合理,数据处理效率高,具有实时更新数据库的功能,适合推广,可以用来处理大数据,智能化程度高。
Description
技术领域
本发明涉及机器学习和大数据处理系统技术领域,尤其涉及一种机器学习和大数据处理系统。
背景技术
近年来,大数据领域发展出大量技术和产品,成为大数据获取、存储、处理分析或可视化的有效手段。但使用这些技术和产品存在较高的技术门槛,怎样将大数据技术以标准化的形式组织起来,为使用者提供便捷、高效的使用方法,成为一项巨大挑战。
以许多大互联网公司为代表的一系列基于云平台的大数据分析产品应运而生。这些产品凭借其丰富的云计算资源和友好的交互模式为大数据分析任务的组织提供了相对高效和相对便利的手段。但企业的数据分析人员往往精通领域知识和业务背景,却对数据分析的技术细节不甚熟悉,导致这些大数据分析产品仍然具有较高的技术门槛。尤其在数据分析技术发展迅速的今天,大多企业难以承担同时掌握各种数据分析技术所花费的巨大人力成本。另外,在实际应用中,往往需要根据不同条件训练批量类似的模型,而现有平台和产品无法高效地支持这一场景。
经检索,专利号为CN201711354629.6提出交互式自动化大数据分析应用开发系统,所述系统包括:数据接收模块、算子管理模块、分析模型生成模块、流程解析优化模块以及任务调度执行模块;其中,所述数据接收模块用于接收用户通过数据管理交互界面输入的待分析大数据的训练数据集;所述算子管理模块用于根据所述训练数据集构建并存储对应的数据集算子,所述算子管理模块还用于存储预设数据处理算子、预设机器学习算子以及预设流程控制算子;所述分析模型生成模块用于根据用户在分析流程编辑交互界面调用所述数据集算子、所述预设数据处理算子、所述预设机器学习算子以及所述预设流程控制算子构建的分析流程生成所述待分析大数据的分析模型,该对比文件的数据处理不支持数据的实时更新,且数据的筛选力度不强,垃圾信息很难去除掉,为此,本发明提出一种机器学习和大数据处理系统。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种机器学习和大数据处理系统。
为了实现上述目的,本发明采用了如下技术方案:
一种机器学习和大数据处理系统,包括数据接入单元、数据库、数据存储单元、信息处理单元、信息分类单元、信息读取单元、信息整理单元、信息优化单元、信息筛选单元、智能审核单元和人工审核单元,所述数据库与数据存储单元双向连接,数据存储单元的输出端与信息读取单元的输入端连接,信息读取单元的输出端与信息分类单元的输入端连接,信息分类单元的输入端与数据接入单元的输出端连接,信息分类单元的输出端与信息整理单元的输入端连接,信息整理单元的输出端与信息优化单元的输入端连接,信息优化单元的输出端与信息筛选单元的输入端连接,信息筛选单元的输出端与智能审核单元的输入端连接,智能审核单元的输出端与人工审核单元的输入端连接,人工审核单元的输出端与数据存储单元的输入端连接,数据存储单元的输入端与信息处理单元的输出端连接。
优选的,所述信息优化单元的输入端与检索单元的输出端连接,检索单元包括敏感词汇和格式不正确的检索,属于初步检索,当信息中含有敏感词汇或者信息格式不正确时,检索单元判断该信息为不合格,此时将信息打回,信息返回修改,修改后再进入信息整理单元,信息优化单元经过检索单元检索合格后,信息进入信息筛选单元中。
优选的,所述智能审核单元包括评分单元、筛选单元、上报单元和删除单元,其中,评分单元的输出端与筛选单元的输入端连接,筛选单元的输出端与上报单元的输入端连接,上报单元的输出端与删除单元的输入端连接,经过信息删选单元筛选后的信息经过评分单元评分,评分≥85的信息作为合格信息被储存在数据存储单元中,评分<85的信息作为不合格信息发送给人工审核单元审核。
优选的,所述信息筛选单元的流程包括信息预过滤、检索库检索、相同技术点检索和技术不完整检索,信息在检索时,通过互联网数据检索库检索,将信息中的关键词录入数据库中,数据库中出现对比文件,然后再将对比文件与录入信息在做相似度对比,相似度≥20%的信息最不合格信息删除掉,大数据处理进一步过滤垃圾信息。
优选的,所述人工审核单元包括人工评分、人工筛选、人工上报、人工删除和技术人员提取技术点,不合格信息经过人工评分,评分小于90的信息删除掉,技术人员提取技术点从合格的信息中。
优选的,所述检索库包括维普、中国知网、万方、超星、sciencedirect和pubmed数据库。
优选的,所述智能审核单元的评分单元根据信息的完整度,完整度包括信息的字数、图片数量、表格数量、引证数量,字数、图片数量、表格数量、引证数量占总分的四分之一。
优选的,所述人工审核单元的人工评分根据信息的技术点,技术点的个数和技术点的丰富性决定人工评分的高低。
优选的,所述数据库中的信息定期更新,定期将信息发送给信息读取单元,然后将信息在进行分类,再根据更新时的检索库进行重新筛选,淘汰已经过时的信息,实时更新数据库的数据。
优选的,所述信息定期更新的周期为6-12个月。
与现有技术相比,本发明的有益效果是:通过检索单元判断该信息为不合格,此时将信息打回,信息返回修改,修改后再进入信息整理单元,信息优化单元经过检索单元检索合格后,信息进入信息筛选单元中,不合格的信息可以修改,修改后再进行筛选,避免优秀信息的流失,更加人性化,通过筛选单元的输出端与上报单元的输入端连接,上报单元的输出端与删除单元的输入端连接,经过信息删选单元筛选后的信息经过评分单元评分,评分≥85的信息作为合格信息被储存在数据存储单元中,评分<85的信息作为不合格信息发送给人工审核单元审核,智能审核单元的加入,可以提高处理效率,减小人工处理的量,通过数据库中的信息定期更新,定期将信息发送给信息读取单元,然后将信息在进行分类,再根据更新时的检索库进行重新筛选,淘汰已经过时的信息,实时更新数据库的数据,本发明设计巧妙,设计合理,数据处理效率高,具有实时更新数据库的功能,适合推广,可以用来处理大数据,智能化程度高。
附图说明
图1为本发明提出的一种机器学习和大数据处理系统的原理框图;
图2为本发明提出的一种机器学习和大数据处理系统中信息筛选单元的原理框图;
图3为本发明提出的一种机器学习和大数据处理系统中人工审核单元的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例一
参照图1-3,一种机器学习和大数据处理系统,包括数据接入单元、数据库、数据存储单元、信息处理单元、信息分类单元、信息读取单元、信息整理单元、信息优化单元、信息筛选单元、智能审核单元和人工审核单元,所述数据库与数据存储单元双向连接,数据存储单元的输出端与信息读取单元的输入端连接,信息读取单元的输出端与信息分类单元的输入端连接,信息分类单元的输入端与数据接入单元的输出端连接,信息分类单元的输出端与信息整理单元的输入端连接,信息整理单元的输出端与信息优化单元的输入端连接,信息优化单元的输出端与信息筛选单元的输入端连接,信息筛选单元的输出端与智能审核单元的输入端连接,智能审核单元的输出端与人工审核单元的输入端连接,人工审核单元的输出端与数据存储单元的输入端连接,数据存储单元的输入端与信息处理单元的输出端连接,所述信息优化单元的输入端与检索单元的输出端连接,检索单元包括敏感词汇和格式不正确的检索,属于初步检索,当信息中含有敏感词汇或者信息格式不正确时,检索单元判断该信息为不合格,此时将信息打回,信息返回修改,修改后再进入信息整理单元,信息优化单元经过检索单元检索合格后,信息进入信息筛选单元中,所述智能审核单元包括评分单元、筛选单元、上报单元和删除单元,其中,评分单元的输出端与筛选单元的输入端连接,筛选单元的输出端与上报单元的输入端连接,上报单元的输出端与删除单元的输入端连接,经过信息删选单元筛选后的信息经过评分单元评分,评分≥85的信息作为合格信息被储存在数据存储单元中,评分<85的信息作为不合格信息发送给人工审核单元审核,所述信息筛选单元的流程包括信息预过滤、检索库检索、相同技术点检索和技术不完整检索,信息在检索时,通过互联网数据检索库检索,将信息中的关键词录入数据库中,数据库中出现对比文件,然后再将对比文件与录入信息在做相似度对比,相似度≥20%的信息最不合格信息删除掉,大数据处理进一步过滤垃圾信息,所述人工审核单元包括人工评分、人工筛选、人工上报、人工删除和技术人员提取技术点,不合格信息经过人工评分,评分小于90的信息删除掉,技术人员提取技术点从合格的信息中。
实施例二
参照图1-3,一种机器学习和大数据处理系统,包括数据接入单元、数据库、数据存储单元、信息处理单元、信息分类单元、信息读取单元、信息整理单元、信息优化单元、信息筛选单元、智能审核单元和人工审核单元,所述数据库与数据存储单元双向连接,数据存储单元的输出端与信息读取单元的输入端连接,信息读取单元的输出端与信息分类单元的输入端连接,信息分类单元的输入端与数据接入单元的输出端连接,信息分类单元的输出端与信息整理单元的输入端连接,信息整理单元的输出端与信息优化单元的输入端连接,信息优化单元的输出端与信息筛选单元的输入端连接,信息筛选单元的输出端与智能审核单元的输入端连接,智能审核单元的输出端与人工审核单元的输入端连接,人工审核单元的输出端与数据存储单元的输入端连接,数据存储单元的输入端与信息处理单元的输出端连接,所述信息优化单元的输入端与检索单元的输出端连接,检索单元包括敏感词汇和格式不正确的检索,属于初步检索,当信息中含有敏感词汇或者信息格式不正确时,检索单元判断该信息为不合格,此时将信息打回,信息返回修改,修改后再进入信息整理单元,信息优化单元经过检索单元检索合格后,信息进入信息筛选单元中,所述智能审核单元包括评分单元、筛选单元、上报单元和删除单元,其中,评分单元的输出端与筛选单元的输入端连接,筛选单元的输出端与上报单元的输入端连接,上报单元的输出端与删除单元的输入端连接,经过信息删选单元筛选后的信息经过评分单元评分,评分≥85的信息作为合格信息被储存在数据存储单元中,评分<85的信息作为不合格信息发送给人工审核单元审核,所述信息筛选单元的流程包括信息预过滤、检索库检索、相同技术点检索和技术不完整检索,信息在检索时,通过互联网数据检索库检索,将信息中的关键词录入数据库中,数据库中出现对比文件,然后再将对比文件与录入信息在做相似度对比,相似度≥20%的信息最不合格信息删除掉,大数据处理进一步过滤垃圾信息,所述人工审核单元包括人工评分、人工筛选、人工上报、人工删除和技术人员提取技术点,不合格信息经过人工评分,评分小于90的信息删除掉,技术人员提取技术点从合格的信息中,所述数据库中的信息定期更新,定期将信息发送给信息读取单元,然后将信息在进行分类,再根据更新时的检索库进行重新筛选,淘汰已经过时的信息,实时更新数据库的数据,信息定期更新的周期为6-12个月。
本发明在使用时,通过检索单元判断该信息为不合格,此时将信息打回,信息返回修改,修改后再进入信息整理单元,信息优化单元经过检索单元检索合格后,信息进入信息筛选单元中,不合格的信息可以修改,修改后再进行筛选,避免优秀信息的流失,更加人性化,通过筛选单元的输出端与上报单元的输入端连接,上报单元的输出端与删除单元的输入端连接,经过信息删选单元筛选后的信息经过评分单元评分,评分≥85的信息作为合格信息被储存在数据存储单元中,评分<85的信息作为不合格信息发送给人工审核单元审核,智能审核单元的加入,可以提高处理效率,减小人工处理的量,通过数据库中的信息定期更新,定期将信息发送给信息读取单元,然后将信息在进行分类,再根据更新时的检索库进行重新筛选,淘汰已经过时的信息,实时更新数据库的数据,本发明设计巧妙,设计合理,数据处理效率高,具有实时更新数据库的功能,适合推广,可以用来处理大数据,智能化程度高。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种机器学习和大数据处理系统,包括数据接入单元、数据库、数据存储单元、信息处理单元、信息分类单元、信息读取单元、信息整理单元、信息优化单元、信息筛选单元、智能审核单元和人工审核单元,其特征在于,所述数据库与数据存储单元双向连接,数据存储单元的输出端与信息读取单元的输入端连接,信息读取单元的输出端与信息分类单元的输入端连接,信息分类单元的输入端与数据接入单元的输出端连接,信息分类单元的输出端与信息整理单元的输入端连接,信息整理单元的输出端与信息优化单元的输入端连接,信息优化单元的输出端与信息筛选单元的输入端连接,信息筛选单元的输出端与智能审核单元的输入端连接,智能审核单元的输出端与人工审核单元的输入端连接,人工审核单元的输出端与数据存储单元的输入端连接,数据存储单元的输入端与信息处理单元的输出端连接。
2.根据权利要求1所述的一种机器学习和大数据处理系统,其特征在于,所述信息优化单元的输入端与检索单元的输出端连接,检索单元包括敏感词汇和格式不正确的检索,属于初步检索,当信息中含有敏感词汇或者信息格式不正确时,检索单元判断该信息为不合格,此时将信息打回,信息返回修改,修改后再进入信息整理单元,信息优化单元经过检索单元检索合格后,信息进入信息筛选单元中。
3.根据权利要求1所述的一种机器学习和大数据处理系统,其特征在于,所述智能审核单元包括评分单元、筛选单元、上报单元和删除单元,其中,评分单元的输出端与筛选单元的输入端连接,筛选单元的输出端与上报单元的输入端连接,上报单元的输出端与删除单元的输入端连接,经过信息删选单元筛选后的信息经过评分单元评分,评分≥85的信息作为合格信息被储存在数据存储单元中,评分<85的信息作为不合格信息发送给人工审核单元审核。
4.根据权利要求1所述的一种机器学习和大数据处理系统,其特征在于,所述信息筛选单元的流程包括信息预过滤、检索库检索、相同技术点检索和技术不完整检索,信息在检索时,通过互联网数据检索库检索,将信息中的关键词录入数据库中,数据库中出现对比文件,然后再将对比文件与录入信息在做相似度对比,相似度≥20%的信息最不合格信息删除掉,大数据处理进一步过滤垃圾信息。
5.根据权利要求3所述的一种机器学习和大数据处理系统,其特征在于,所述人工审核单元包括人工评分、人工筛选、人工上报、人工删除和技术人员提取技术点,不合格信息经过人工评分,评分小于90的信息删除掉,技术人员提取技术点从合格的信息中。
6.根据权利要求4所述的一种机器学习和大数据处理系统,其特征在于,所述检索库包括维普、中国知网、万方、超星、sciencedirect和pubmed数据库。
7.根据权利要求1所述的一种机器学习和大数据处理系统,其特征在于,所述智能审核单元的评分单元根据信息的完整度,完整度包括信息的字数、图片数量、表格数量、引证数量,字数、图片数量、表格数量、引证数量占总分的四分之一。
8.根据权利要求1所述的一种机器学习和大数据处理系统,其特征在于,所述人工审核单元的人工评分根据信息的技术点,技术点的个数和技术点的丰富性决定人工评分的高低。
9.根据权利要求1-8中任一项所述的一种机器学习和大数据处理系统,其特征在于,所述数据库中的信息定期更新,定期将信息发送给信息读取单元,然后将信息在进行分类,再根据更新时的检索库进行重新筛选,淘汰已经过时的信息,实时更新数据库的数据。
10.根据权利要求9所述的一种机器学习和大数据处理系统,其特征在于,所述信息定期更新的周期为6-12个月。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810796182.6A CN109063054A (zh) | 2018-07-19 | 2018-07-19 | 一种机器学习和大数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810796182.6A CN109063054A (zh) | 2018-07-19 | 2018-07-19 | 一种机器学习和大数据处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109063054A true CN109063054A (zh) | 2018-12-21 |
Family
ID=64817362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810796182.6A Pending CN109063054A (zh) | 2018-07-19 | 2018-07-19 | 一种机器学习和大数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063054A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766715A (zh) * | 2018-12-24 | 2019-05-17 | 贵州航天计量测试技术研究所 | 一种面向大数据环境隐私信息防泄露自动识别方法及系统 |
CN111460253A (zh) * | 2020-03-24 | 2020-07-28 | 国家电网有限公司 | 适用于大数据分析互联网数据抓取方法 |
CN112258148A (zh) * | 2020-10-14 | 2021-01-22 | 广东展诚工程咨询有限公司 | 一种基于互联网技术的项目可行性定量评估系统 |
CN115546824A (zh) * | 2022-04-18 | 2022-12-30 | 荣耀终端有限公司 | 禁忌图片识别方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510879A (zh) * | 2009-03-26 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 一种垃圾内容过滤的方法及装置 |
CN105468618A (zh) * | 2014-09-03 | 2016-04-06 | 上海尧博信息科技有限公司 | 一种网络爬虫论文查重法 |
CN106682870A (zh) * | 2016-12-12 | 2017-05-17 | 武汉图灵创客科技有限公司 | 创客教育社交平台系统 |
CN108287821A (zh) * | 2018-01-23 | 2018-07-17 | 北京奇艺世纪科技有限公司 | 一种高质量文本筛选方法、装置及电子设备 |
-
2018
- 2018-07-19 CN CN201810796182.6A patent/CN109063054A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510879A (zh) * | 2009-03-26 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 一种垃圾内容过滤的方法及装置 |
CN105468618A (zh) * | 2014-09-03 | 2016-04-06 | 上海尧博信息科技有限公司 | 一种网络爬虫论文查重法 |
CN106682870A (zh) * | 2016-12-12 | 2017-05-17 | 武汉图灵创客科技有限公司 | 创客教育社交平台系统 |
CN108287821A (zh) * | 2018-01-23 | 2018-07-17 | 北京奇艺世纪科技有限公司 | 一种高质量文本筛选方法、装置及电子设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766715A (zh) * | 2018-12-24 | 2019-05-17 | 贵州航天计量测试技术研究所 | 一种面向大数据环境隐私信息防泄露自动识别方法及系统 |
CN109766715B (zh) * | 2018-12-24 | 2023-07-25 | 贵州航天计量测试技术研究所 | 一种面向大数据环境隐私信息防泄露自动识别方法及系统 |
CN111460253A (zh) * | 2020-03-24 | 2020-07-28 | 国家电网有限公司 | 适用于大数据分析互联网数据抓取方法 |
CN112258148A (zh) * | 2020-10-14 | 2021-01-22 | 广东展诚工程咨询有限公司 | 一种基于互联网技术的项目可行性定量评估系统 |
CN115546824A (zh) * | 2022-04-18 | 2022-12-30 | 荣耀终端有限公司 | 禁忌图片识别方法、设备及存储介质 |
CN115546824B (zh) * | 2022-04-18 | 2023-11-28 | 荣耀终端有限公司 | 禁忌图片识别方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063054A (zh) | 一种机器学习和大数据处理系统 | |
CN112579707B (zh) | 一种日志数据的知识图谱构建方法 | |
CN107145789B (zh) | 一种大数据安全分析的可视化交互式方法 | |
CN102648464B (zh) | 用于从网络数据中生成词汇的系统和方法 | |
CN112580831B (zh) | 一种基于知识图谱的电力通信网智能辅助运维方法及系统 | |
CN113468296A (zh) | 可配置业务逻辑的模型自迭代式智能客服质检系统与方法 | |
CN107748782A (zh) | 查询语句处理方法及装置 | |
CN109634994A (zh) | 一种简历与职位的匹配推送方法及计算机设备和存储介质 | |
CN104715047A (zh) | 一种社交网络数据采集与分析系统 | |
CN110046225B (zh) | 一种科技项目材料完整性评估决策模型训练方法 | |
CN109635089B (zh) | 一种基于语义网络的文学作品新颖度评价系统和方法 | |
CN106202507A (zh) | 电力抢修演练仿真系统和方法 | |
CN107705095A (zh) | 一种分布式人才档案管理系统 | |
CN110417873A (zh) | 一种实现记录网页交互操作的网络信息提取系统 | |
CN117633179A (zh) | 一种铁路行业智能问答助手系统 | |
Parchande et al. | Contractual employee management system using machine learning and robotic process automation | |
CN111325422A (zh) | 一种工单派发方法及系统 | |
CN109345133A (zh) | 基于大数据和深度学习的评审方法和机器人系统 | |
CN114003600A (zh) | 数据处理方法、系统、电子设备和存储介质 | |
CN111858593B (zh) | 一种分业务板块数据处理系统及方法 | |
CN113222469A (zh) | 一种面向孵化器众创空间的管理系统 | |
Skyrius | The relations of maturity and dimensions of business intelligence | |
CN112416921A (zh) | 一种财税大数据分析方法及系统 | |
Xu et al. | WIM at TREC 2007. | |
Gerulaitienė et al. | Exploring the Family Business Resilience Capabilities During the Covid-19 Pandemic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181221 |