CN109543093A - 一种一体化智能情报助手平台 - Google Patents

一种一体化智能情报助手平台 Download PDF

Info

Publication number
CN109543093A
CN109543093A CN201811148259.5A CN201811148259A CN109543093A CN 109543093 A CN109543093 A CN 109543093A CN 201811148259 A CN201811148259 A CN 201811148259A CN 109543093 A CN109543093 A CN 109543093A
Authority
CN
China
Prior art keywords
information
classification
platform
module
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811148259.5A
Other languages
English (en)
Inventor
严晓芳
鲁文帅
梁嘉倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronics Technology Group Corp CETC
Electronic Science Research Institute of CTEC
Original Assignee
China Electronics Technology Group Corp CETC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronics Technology Group Corp CETC filed Critical China Electronics Technology Group Corp CETC
Priority to CN201811148259.5A priority Critical patent/CN109543093A/zh
Publication of CN109543093A publication Critical patent/CN109543093A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种一体化智能情报助手平台,本发明的一体化智能情报助手平台覆盖了对情报研究人员、机构、资源的管理,实现了情报研究工具的一体化集成,而且本发明是专家系统和人工智能深度结合的平台,且具有先天专家经验和后天学习能力的系统,它不同于以往死板的不可自我演进的专家系统,也不同于不具有专业知识而需要长期训练的智能平台,而是既发挥了专家经验并将其积累固化,又有效利用了机器学习的智能化优势,有利于专家和平台的螺旋上升式演进。

Description

一种一体化智能情报助手平台
技术领域
本发明涉及计算机技术领域,特别是涉及一种一体化智能情报助手平台。
背景技术
专业的情报研究通常由一系列必不可少的连续环节组成,包括:情报获取、情报筛选、主题分类、分析综合、报告撰写、反馈修正等。一个情报工具或研究平台是否有价值,是否能够真正对情报研究工作者提供切实帮助,很大程度取决于其是否能对情报研究上述各个环节提供有效支撑。但目前无论从文献调研还是从市场产品,都没有一款能够完整覆盖情报研究全流程的一体化情报专用平台。
发明内容
本发明提供了一种一体化智能情报助手平台,以解决现有技术中无法实现完整覆盖情报研究全流程的情报专用平台的问题。
本发明提供了一种一体化智能情报助手平台,包括:
数据采集模块,用于通过网络爬取和本地导入获取多源情报数据,通过对公有和/或私有、结构化和/或非结构化的多源情报数据进行定制化采集;
自动清洗模块,用于对本地原始情报库的文件进行预处理,
智能分类模块,用于通过智能分类器按照预设的主题对预处理后的情报数据库进行自动分类;
情报呈现模块,用于为用户提供经所述智能分类模块分类后的主题数据,并进行标记、推送和摘要提取,所述摘要提取基于混合提取算法,对情报原文的主要内容做提炼;
汇编报告模块,用于按照用户设定的主题和模板,自动生成情报汇编报告;
系统管理模块,用于对平台的账号权限、组织机构、硬软件资源以及所述数据采集模块、所述自动清洗模块、所述智能分类模块、所述情报呈现模块、所述汇编报告模块和所述系统管理模块进行管理。
优选地,网络爬取功能采用可配置的网络爬虫实现,可配置的参数包括但不限于:目标网址、抓取层级、文件类型、线程个数、触发方式和网络代理方式。
优选地,所述预处理包括文件去重、文字提取、文本分词处理。
优选地,还包括:分类设置模块,用于预设分类主题,以及每个分类主题下的子类。
优选地,所述智能分类模块包括专家经验和机器学习两种方法,具体用于,依据专家经验,通过预定义各个主题下的基本关键词库,利用布尔逻辑和词集或词袋模型对分类规则进行配置,生成专家规则分类器,基于给定平台机器学习的样本,选择机器学习算法,根据选定的机器学习算法和上传的样本自动训练生成机器学习分类器,配置后的专家规则分类器和机器学习分类器根据预设的设定条件,筛选相应的文件和主题
优选地,所述机器学习算法包括:朴素贝叶斯、支持向量机、随机森林、贝叶斯网络、K近邻等经典分类算法及其组合。
优选地,所述设定条件包括以下中的一种或多种:来源网站、发布时间、文件大小、文件类型。
优选地,所述智能分类模块还用于,在执行分类任务后,基于分类器计算结果为用户提供分类后的轻量级条件筛选,并进行专家规则分类和机器学习分类的交互演进。
本发明有益效果如下:
本发明的一体化智能情报助手平台覆盖了对情报研究人员、机构、资源的管理,实现了情报研究工具的一体化集成,而且本发明是专家系统和人工智能深度结合的平台,且具有先天专家经验和后天学习能力的系统,它不同于以往死板的不可自我演进的专家系统,也不同于不具有专业知识而需要长期训练的智能平台,而是既发挥了专家经验并将其积累固化,又有效利用了机器学习的智能化优势,有利于专家和平台的螺旋上升式演进。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例的一种一体化智能情报助手平台的结构示意图;
图2是本发明实施例的另一种一体化智能情报助手平台的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明第一实施例提供了一体化智能情报助手平台,参见图1,该平台包括:
数据采集模块,用于通过网络爬取和本地导入获取多源情报数据,通过对公有和/或私有、结构化和/或非结构化的多源情报数据进行定制化采集;
自动清洗模块,用于对本地原始情报库的文件进行预处理,
智能分类模块,用于通过智能分类器按照预设的主题对预处理后的情报数据库进行自动分类;
情报呈现模块,用于为用户提供经所述智能分类模块分类后的主题数据,并进行标记、推送和摘要提取,所述摘要提取基于混合提取算法,对情报原文的主要内容做提炼;
汇编报告模块,用于按照用户设定的主题和模板,自动生成情报汇编报告;
系统管理模块,用于对平台的账号权限、组织机构、硬软件资源以及所述数据采集模块、所述自动清洗模块、所述智能分类模块、所述情报呈现模块、所述汇编报告模块和所述系统管理模块进行管理。
也就是说,本发明实施例是一体化智能情报助手可覆盖对情报研究人员、机构、资源的管理,实现了情报研究工具的一体化集成,而且本发明是专家系统和人工智能深度结合的平台,且具有先天专家经验和后天学习能力的系统,它不同于以往死板的不可自我演进的专家系统,也不同于不具有专业知识而需要长期训练的智能平台,而是既发挥了专家经验并将其积累固化,又有效利用了机器学习的智能化优势,有利于专家和平台的螺旋上升式演进。
本发明实施例所述网络爬取功能采用可配置的网络爬虫实现,可配置的参数包括但不限于:目标网址、抓取层级、文件类型、线程个数、触发方式和网络代理方式,等等,具体实施时,本领域的技术人员可以根据实际需要进行设置。
为了简化数据,本发明实施例通过预先对数据进行预处理,以去除不必要的数据,其中,本发明实施例所述预处理包括文件去重、文字提取、文本分词处理,等等。
本发明实施例所述的平台还包括:分类设置模块,用于预设分类主题,以及每个分类主题下的子类。
本发明实施例通过分类设置模块来预设分类主题,以及每个分类主题下的子类,以备后续智能分类模块进行分类。
本发明实施例中,所述智能分类模块包括专家经验和机器学习两种方法,具体用于,依据专家经验,通过预定义各个主题下的基本关键词库,利用布尔逻辑和词集或词袋模型对分类规则进行配置,生成专家规则分类器,基于给定平台机器学习的样本,选择机器学习算法,根据选定的机器学习算法和上传的样本自动训练生成机器学习分类器,配置后的专家规则分类器和机器学习分类器根据预设的设定条件,筛选相应的文件和主题。
本发明实施例所述机器学习算法包括:朴素贝叶斯、支持向量机、随机森林、贝叶斯网络、K近邻等经典分类算法及其组合,具体实施时,本领域的技术人员可根据具体情况采用其他机器学习算法,本发明对此不作具体限定。
具体实施时,本发明实施例所述设定条件包括以下中的一种或多种:来源网站、发布时间、文件大小、文件类型。
本发明实施例中,所述智能分类模块还用于,在执行分类任务后,基于分类器计算结果为用户提供分类后的轻量级条件筛选,并进行专家规则分类和机器学习分类的交互演进。
总体来说,本发明实施例提供的一种一体化的专业情报研究辅助平台,借助可编程、可固化的专家经验,和可训练、可迭代的机器学习,实现对情报研究领域的多元采集、自动清洗、智能分类、立体呈现、汇编报告、综合分析等主要环节和常用工具的全覆盖,实现情报研究各个环节的无缝连接,并充分发挥专家经验和人工智能的各自优势和互补效应,有效克服当前情报辅助工具专业化程度低、产出准确率低、工具一体化程度低、专家经验利用率低、智能化程度低等缺陷,实现工具与专家之间的交替螺旋上升式演进。
为了对本发明进行更好的说明,下面将结合图2通过一个具体的实施例对本发明所述的平台进行详细说明:
如图2所示,本发明实施例的平台由七个功能模块组成,分别是数据采集、自动清洗、智能分类、情报呈现、汇编报告、常用工具、系统管理。其中,数据采集模块用于平台获取多源情报数据,自动清洗模块用于对原始非结构化数据进行数据预处理,智能分类模块用于按照专家规则和机器学习对预处理后的情报数据做可配置的精准分类,情报呈现模块用于对分好类的数据做后处理以实现摘要提取、浏览下载、标定校准,汇编报告模块依据主题对处理后的分类数据进行情报汇编集成和情报报告生成,常用工具模块是嵌入平台中的辅助工具的集成,系统管理模块用于对平台的全局变量、系统资源、用户组织等进行管理。七个模块按照情报研究的流程模式组成可自动运行的一体化平台,部署在云服务器或本地服务器上,供用户远程或本地使用,作为用户开展情报研究的辅助工具。
1.数据采集模块用于平台获取多源情报数据,获取方式包括网络爬取和本地导入,能够对公有或私有、结构化或非结构化的多源情报数据进行定制化采集,并支持多媒体数据格式,包括文本、图片、网页、音频、视频等各类文件。网络爬取功能采用可配置的网络爬虫实现,可配置的参数包括但不限于:(1)目标网址,即被采集的目标网站地址,同时可录入中英文名称、语言类型、网站属性,(2)抓取层级,即在目标网址下爬虫的爬取深度,(3)外域权限,即爬虫是否通过站内链接访问域名外的地址,(4)文件类型,即爬虫需要下载的目标文件格式,包括pdf,doc,html,jpg,mp4等,(5)线程个数,即该爬虫任务使用的多线程数量,(6)触发方式,即采用人工触发爬虫任务,或指定爬虫自动启动的日期、时间,(7)代理方式,即配置爬虫所使用的IP代理模式,包括固定地址IP、动态地址池随机选取IP、VPN通道等。本地导入功能支持对给定的本地路径下的各类文件和指定名称的数据库进行一键式导入和结构化提取。数据采集模块获取的各类原始情报数据存储在本地原始情报库中,其中文件存储在本地磁盘,文件属性存储在本地数据库表,可以通过模块内的条件检索引擎进行浏览查看、人工修改、批量下载。
2.自动清洗模块用于对本地原始情报库的文件去重、文字提取、文本分词等预处理功能。文件去重是通过比对文件的URL链接、HD5值等属性值筛掉库内的重复文件。文字提取是将多媒体文件转换为文本文件,用于自然语言理解处理,即对pdf、word、html、jpg等文件中的文字通过标签结构提取、光学字符识别(OCR)等方法提取为txt文本,对音频文件进行语音识别得到txt文本,对视频文件进行帧提取后将字幕和音频提取转化为txt文本。文本分词是对文本进行n-gram分词,并去掉常见停用词,得到可用于自然语言理解的向量文件。自动清洗模块是与数据采集模块自动关联的,不需要人工干预,清洗的结果报表可以被用户查看。
3.智能分类模块用于对自动清洗后的情报数据库做面向不同主题的精准分类,是本专利所述平台的核心部分,综合运用了专家规则和机器学习两种工作模式。平台缺省设定了常用情报领域的分类主题,同时支持用户自定义添加主题类别,并支持根类别下无限层级子类别的灵活定义。对于一系列定义好的类别主题和未经分类的情报文件而言,由分类器执行具体的分类任务。分类器是可配置的,有两种工作模式,包括专家规则模式和机器学习模式。对于每一个情报主题分类及其下设的子类:情报研究人员可以依据专家经验,通过前台操作定义该主题下的基本关键词库,利用布尔逻辑和词集/词袋模型对分类规则进行明确配置,后台会根据此规则自动生成分类器代码,即为专家规则分类器;用户还可以给定平台机器学习的样本,选择机器学习算法(包括朴素贝叶斯、支持向量机、随机森林、贝叶斯网络、K近邻等经典分类算法及其组合),后台会根据选定的算法和上传的样本自动训练生成分类器代码,即为机器学习分类器。配置后的分类器能够依据测试样本给出性能评估,包括分类速度、准确率、召回率等。在生成分类器后,当用户需要启动分类任务时,可以设定条件(包括来源网站、发布时间、文件大小、文件类型等),筛选针对的文件和面向的主题。不被选择的文件和主题不会被执行分类任务,将保留历史分类结果不变。在执行分类任务后,平台还基于分类器计算结果为用户提供分类后的轻量级条件筛选,如依据分类预测概率阈值筛选、依据词频阈值筛选等。此外,平台支持专家规则分类和机器学习分类的交互演进:一方面,专家规则分类的结果可以通过用户在前台标记后成为机器学习分类的训练样本;另一方面,机器学习分类的结果中包含了此类别的词频统计,可辅助用户制定新的专家规则。
4.情报呈现模块用于为情报用户提供面向已分类情报库的操作接口,它与前述智能分类模块自动关联,根据用户在智能分类模块中定义的类别,对分类后的情报做有序呈现,支持条件排序,并提供浏览放大、批量下载、摘要提取、情报推送、人工标记等用户操作。批量下载功能可以使用条件检索,对分类后的情报资料做定制化的下载;摘要提取功能基于混合提取算法(包括模板提取算法、关键句段算法、开源提取工具等),对情报原文的主要内容做提炼;情报推送功能支持自动或人工推送邮箱、短信、微信,用户可以设定当有新的情报进入某分类时推送给预设的用户地址,也可以人工选定将哪些情报推送给用户;人工标记功能用于情报专家对分类后的结果做人工校准,平台可以依据人工校准的结果优化分类器参数,改进分类性能。
5.汇编报告模块用于按照用户设定的主题和模板,自动生成情报汇编报告。情报报告的主题、结构、格式、内容可由用户在前台自定义设置,颗粒度可以细化到各段落:段落内容的定义可以采用明确的专家规则,当分类情报数据库中有情报文本匹配该规则逻辑时,该条情报文本将被汇编;也可以采用机器学习,用户给出每段报告的例文,由平台学习例文并从情报数据库中判断匹配的情报文本后填入汇编报告。后台将自动按照前台配置生成报告引擎,该报告引擎基于已分类情报库,匹配情报数据和填充报告内容,生成定制化的情报汇编报告。
6.常用工具模块集成了情报研究人员常用的小工具,便于用户在使用本专利所述平台进行情报研究过程中同步使用,包括影印资料识别、外文科技情报翻译、机器学习样本制作、文件批量重命名、嵌入脚本程序等。影印资料识别功能基于光学字符识别(OCR),用于将图片、扫描资料中的文字字符提取成文本;外文科技情报翻译功能基于深度学习翻译工具,能够把外文情报文本自动翻译成中文,并支持双语情报的语料学习,以提高情报专业领域的翻译准确率;文件批量重命名功能可以由用户设定命名规则,例如“日期+题目+作者+分类”等,然后对指定路径下的全部文件一键批量处理;嵌入脚本程序功能为用户提供脚本程序接口,用户可以将自主设计的小程序脚本嵌入到平台中,以增加用户的定制化功能,该功能支持跨编程语言的嵌入,例如在Java平台中嵌入Python或R或C语言的脚本。
7.系统管理模块用于对平台的账号权限、组织机构、硬软件资源、其他全局变量进行管理。其中账号管理功能用于设置不同用户的基本账号信息,以及该用户对平台的使用权限;组织机构管理功能用于设定账户所属的单位和部门信息,并通过设定不同的数据库源实现机构之间的数据隔离控制;硬软件资源管理功能用于监视和配置各个账号、各个机构允许使用平台的线程数量,及占用平台的处理器百分比、硬盘存储空间、网络带宽大小、代理IP数量等,便于系统维护和资费管理;其他全局变量还包括菜单管理,以及各个模块默认分配的线程数量、代理IP地址、访问限制、默认推送地址等。
本发明实施例的平台实例的前后台主体采用Java开发,分类算法代码采用Python开发,整套平台采用Web系统访问,将数据采集、自动清洗、智能分类、情报呈现、汇编报告、常用工具、系统管理共7个模块组成一体化的智能情报助手平台。整套软件平台部署在具有公网独立IP机房的云服务器上,网络带宽15Mbit/s,服务器运行Linux操作系统,软件系统部署在Tomcat服务中,数据库软件采用MySQL。在本实施案例中,对公网爬取速度达到600个文件/小时,智能分类速度达到10万条/小时,经采集的情报数据库的数据达到200万条以上,智能分类准确率一般达到85%以上,在特定领域优化后的分类准确率达到95%以上,生成汇编报告的一般速度优于10分钟/篇。以上实施案例验证了本专利所述平台的可用性和有效性。
本发明实施例的平台是专用于情报研究领域的全流程平台,集数据采集、自动清洗、智能分类、情报呈现、汇编报告5大模块涵盖了情报研究过程所需的全部工作环节,常用工具模块涵盖了情报研究所需的主要工具,系统管理覆盖了对情报研究人员、机构、资源的管理,整个平台实现了情报研究工具的一体化集成。
另外,本发明实施例是专家系统和人工智能深度结合的平台,具有先天专家经验和后天学习能力的系统,它不同于以往死板的不可自我演进的专家系统,也不同于不具有专业知识而需要长期训练的智能平台,而是既发挥了专家经验并将其积累固化,又有效利用了机器学习的智能化优势,有利于专家和平台的螺旋上升式演进。
本发明所述的智能情报助手平台能够作为有效的辅助工具,使情报研究人员能够更快速地对未知领域情报进行探索,更深入地对已知领域情报进行研究。相比于以往的仅具有专家经验的系统而言,可以发现更多的情报数据;
相比于只具备机器学习训练的系统而言,具有专业化的起始能力。相比于传统的数据采集或摘要提取工具而言,本平台能实现一体化、一站式、全流程的情报辅助研究。从实施结果看,本专利所述平台使得情报工作者在撰写某领域研究报告的前期准备时间由1周缩短到1天,极大提高了情报研究效率。
本发明实施例的相关部分可参见方法实施例进行理解,在此不做详细赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的分布式文件系统数据导入装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种一体化智能情报助手平台,其特征在于,包括:
数据采集模块,用于通过网络爬取和本地导入获取多源情报数据,通过对公有和/或私有、结构化和/或非结构化的多源情报数据进行定制化采集;
自动清洗模块,用于对本地原始情报库的文件进行预处理,
智能分类模块,用于通过智能分类器按照预设的主题对预处理后的情报数据库进行自动分类;
情报呈现模块,用于为用户提供经所述智能分类模块分类后的主题数据,并进行标记、推送和摘要提取,所述摘要提取基于混合提取算法,对情报原文的主要内容做提炼;
汇编报告模块,用于按照用户设定的主题和模板,自动生成情报汇编报告;
系统管理模块,用于对平台的账号权限、组织机构、硬软件资源以及所述数据采集模块、所述自动清洗模块、所述智能分类模块、所述情报呈现模块、所述汇编报告模块和所述系统管理模块进行管理。
2.根据权利要求1所述的平台,其特征在于,
所述网络爬取功能采用可配置的网络爬虫实现,可配置的参数包括但不限于:目标网址、抓取层级、文件类型、线程个数、触发方式和网络代理方式。
3.根据权利要求1所述的平台,其特征在于,
所述预处理包括文件去重、文字提取、文本分词处理。
4.根据权利要求1所述的平台,其特征在于,还包括:
分类设置模块,用于预设分类主题,以及每个分类主题下的子类。
5.根据权利要求1所述的平台,其特征在于,
所述智能分类模块具体用于,依据专家经验,通过预定义各个主题下的基本关键词库,利用布尔逻辑和词集或词袋模型对分类规则进行配置,生成专家规则分类器,基于给定平台机器学习的样本,选择机器学习算法,根据选定的机器学习算法和上传的样本自动训练生成机器学习分类器,配置后的专家规则分类器和机器学习分类器根据预设的设定条件,筛选相应的文件和主题。
6.根据权利要求5所述的平台,其特征在于,
所述机器学习算法包括:朴素贝叶斯、支持向量机、随机森林、贝叶斯网络、K近邻等经典分类算法及其组合。
7.根据权利要求5所述的平台,其特征在于,
所述设定条件包括以下中的一种或多种:来源网站、发布时间、文件大小、文件类型。
8.根据权利要求5所述的平台,其特征在于,
所述智能分类模块还用于,在执行分类任务后,基于分类器计算结果为用户提供分类后的轻量级条件筛选,并进行专家规则分类和机器学习分类的交互演进。
CN201811148259.5A 2018-09-29 2018-09-29 一种一体化智能情报助手平台 Pending CN109543093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811148259.5A CN109543093A (zh) 2018-09-29 2018-09-29 一种一体化智能情报助手平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811148259.5A CN109543093A (zh) 2018-09-29 2018-09-29 一种一体化智能情报助手平台

Publications (1)

Publication Number Publication Date
CN109543093A true CN109543093A (zh) 2019-03-29

Family

ID=65841311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811148259.5A Pending CN109543093A (zh) 2018-09-29 2018-09-29 一种一体化智能情报助手平台

Country Status (1)

Country Link
CN (1) CN109543093A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833198A (zh) * 2020-07-20 2020-10-27 民生科技有限责任公司 一种智能处理保险条款的方法
CN112765439A (zh) * 2021-02-25 2021-05-07 重庆三峡学院 一种基于大数据平台的数据处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统
CN107544337A (zh) * 2017-09-19 2018-01-05 中国核动力研究设计院 一种松脱部件监测系统触发数据智能分类的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统
CN107544337A (zh) * 2017-09-19 2018-01-05 中国核动力研究设计院 一种松脱部件监测系统触发数据智能分类的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833198A (zh) * 2020-07-20 2020-10-27 民生科技有限责任公司 一种智能处理保险条款的方法
CN112765439A (zh) * 2021-02-25 2021-05-07 重庆三峡学院 一种基于大数据平台的数据处理方法及装置

Similar Documents

Publication Publication Date Title
Bartoli et al. Inference of regular expressions for text extraction from examples
US11080807B2 (en) Patent mapping
CA2943745C (en) Improved method, system and software for searching, identifying, retrieving and presenting electronic documents
CN104715064B (zh) 一种实现在网页上标注关键词的方法和服务器
CN105975558A (zh) 建立语句编辑模型的方法、语句自动编辑方法及对应装置
US20070198578A1 (en) Patent mapping
CN111279335B (zh) 基于文档结构提取检索多语言文档
Crabtree et al. Improving web clustering by cluster selection
KR102064292B1 (ko) 개인화된 소셜네트워크서비스 컨텐츠 추천 방법 및 장치
CN109344230A (zh) 代码库文件生成、代码搜索、联结、优化以及移植方法
CN105404688A (zh) 搜索方法和搜索设备
El Ghosh et al. Towards a middle-out approach for building legal domain reference ontology
US20200250015A1 (en) Api mashup exploration and recommendation
CN109543093A (zh) 一种一体化智能情报助手平台
EP1774432A2 (en) Patent mapping
Kuehne et al. Mining youtube-a dataset for learning fine-grained action concepts from webly supervised video data
AU2012200701B2 (en) Patent Mapping
Gherasim et al. Methods and tools for automatic construction of ontologies from textual resources: A framework for comparison and its application
Mahmoud et al. Ontology learning based on word embeddings for text big data extraction
Risse et al. Exploiting the social and semantic web for guided web archiving
Berrocal-Macías et al. Services Extraction for Integration in Software Projects via an Agent-Based Negotiation System
CN116304347A (zh) 一种基于群智知识的Git命令推荐方法
Ciatto et al. Large language models as oracles for instantiating ontologies with domain-specific knowledge
Gupta et al. Tools of opinion mining
CN104462552A (zh) 问答页面核心词提取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190329