认知物联网大数据技术平台
技术领域
本发明涉及大数据领域,具体涉及一种认知物联网大数据技术平台。
背景技术
由于人机交互技术和人工智能技术的飞速发展,将认知计算技术与互连设备产生的数据和这些设备可以执行的操作结合使用的认知物联网越来越普及,通过云技术、存储器以及传感器在认知物联网的大量应用,人们从认知物联网获得了海量的可用数据,然而由于这些数据的异构性,使得对其进行存储、分析和从中提取信息极为困难,因此,亟需构建专门的认知物联网大数据技术平台,以解决从认知物联网获得的异构数据存在的存储、分析和提取信息困难的问题。
发明内容
为了解决现有大数据平台存在的上述问题,本发明的目的是提供认知物联网大数据技术平台,以解决现有大数据技术从认知物联网获得的异构数据存在的存储、分析和提取信息困难的问题。
为了达到上述目的,本发明所采用的技术方案是:本发明提供了一种认知物联网大数据技术平台,包括核心模块、核心扩展模块、文本处理模块、信号/数据处理模块、定制技术模块以及接口功能模块,所述核心模块、所述核心扩展模块、所述文本处理模块、所述信号/数据处理模块、所述定制技术模块以及所述接口功能模块之间通过计算机应用程序接口相连并传送数据;
所述核心模块用于实现所述认知物联网大数据技术平台的核心功能,所述核心扩展模块用于实现所述认知物联网大数据技术平台的核心扩展功能,所述文本处理模块用于实现所述认知物联网大数据技术平台的文本处理功能,所述信号/数据处理模块用于实现所述认知物联网大数据技术平台的高级数据分析功能,所述定制技术模块用于实现所述认知物联网大数据技术平台的特定功能,所述接口功能模块用于实现所述认知物联网大数据技术平台的接口管理功能;
所述核心功能包括分布式消息处理功能、自动获取网站内容功能、管理工作流程功能、文本特征提取功能、管理地理定位信息功能、索引和搜索功能、文本修改功能、多种搜索引擎全局控制机制功能、文档预览功能、提取文档结构功能、摄取数据库的输入数据功能、高级搜索功能、各种数据源连接器功能、查询管理功能、自然语言处理功能、机器学习功能、逻辑理解功能;
所述核心扩展功能包括管理用户接口功能、域控制功能、支持LDAP认证系统功能、支持从系统数据库中提取数据功能、脚本管理功能、支持Web分布式创作和版本控制协议功能、支持应用程序之间的互操作性功能、与第三方硬件系统接口功能、许可证分配功能、处理备份策略管理流程中的操作工作流功能;
所述文本处理功能包括文件及数据库信息导入系统功能、文档拆分功能、文本特征提取功能、建立文本索引功能、文本搜索功能、全文搜索功能、跨语言管理功能、文档分类功能、数据的爬取存储和管理功能、管理与一个或多个文档相关的逻辑细化流程功能、网页的可视化动态引擎功能、文档预览功能、演示报告生成功能、存储数据操作细化管理功能、管理系统通知功能、管理地理本地化数据功能、管理认证电子邮件系统功能、识别和提取扫描仪扫描的文档内容功能、协作编写文档功能、处理与不同知识领域相关的词汇功能、检查文档合规性功能、阅读具有非标准结构和字符的加密pdf功能、从文本中提取概念功能、管理文档版本功能;
所述高级数据分析功能包括从软件总线获取数据功能,从硬件设备下载数据功能,分析和发现重复模式、数据之间关系功能,高级统计功能,未来事件预测功能,评估和预测一系列事件动态功能,评估两个随机变量之间的关系功能,推导未来行为功能,检测、识别和突出异构数据时间序列中的异常情况功能,预定义规则的应用/验证功能,人群信息进行收集和汇总功能,搜索和分类从内部和外部来源检索的信息的配置文件功能,审查中的信息集分析功能,生成绩效全局指标功能,收敛到良好解决方案功能,对公司的运营流程偏差进行因果分析功能,跟踪所考虑的数量的未来行为功能,重新排列数据库中存在的数据结构功能,主观信息分析功能,海量数据的数据聚类功能;
所述特定功能包括定义操作程序的详尽监控过程功能,获取准确的研究信息功能,跟踪单个用户的行为和动作功能,预定义工作流功能,优化后的参数与流程情况比较功能,人与人之间的关系网络建模功能,对类似的个人进行分组功能,改进Wiki内容导航功能,调查功能,项目多重管理功能,日历管理和时间事件功能,高级日志分析功能,邮件系统管理功能,电子邮件附件管理功能,群发邮件管理功能,工单管理功能,XML提要管理功能;
所述接口管理功能包括移动设备界面管理功能,图形直观方式显示相关性功能,同步通信(即时消息)和异步通信(私人消息)支持功能,html代码验证功能,启用应用程序中各种实体的注释支持功能,指导用户使用系统功能。
进一步地,所述核心模块包括Celery模块、爬虫模块、工作流模块、特征提取器、地理数据模块、索引器、优化模块、元搜索模块、预览模块、拆分器、数据处理模块、搜索引擎、数据整合模块、查询管理模块、自然语言处理模块、机器学习模块、意义引擎;所述Celery模块、所述爬虫模块、所述工作流模块、所述特征提取器、所述地理数据模块、所述索引器、所述优化模块、所述元搜索模块、所述预览模块、所述拆分器、所述数据处理模块、所述搜索引擎、所述数据整合模块、所述查询管理模块、所述自然语言处理模块、所述机器学习模块以及所述意义引擎之间通过计算机应用程序接口相连并传送数据;
所述Celery模块用于提供异步任务和作业队列以实现所述分布式消息处理功能,支持计划和实时操作,使用基于Python的网络库Gevent在单节点和多节点上执行并发执行,能够在同步模式和异步模式下执行任务;
所述爬虫模块用于从互联网爬取网站以实现所述自动获取网站内容功能,与HTML模块集成以实现了解和探索页面模板功能、卷筒式自动提取功能、HTML解释及文本提取功能;
所述工作流模块为基于BPMN2.0标准的工作流程图和工作流程规范,以实现所述管理工作流程功能;
所述特征提取器用于从文本中提取IMEI代码、IP地址、电话号码、地理位置数据、信用卡号,以实现所述文本特征提取功能;
所述地理数据模块用于根据标准拓补以及与标准拓补相关的数据以实现所述管理地理定位信息功能,通过GoogleMaps插件和JQuery传单插件可视化表示地理数据,允许管理本地化地理信息,地理空间分析IP地址能够映射到地理位置,能够识别地理距离、地理范围、地理边界框或地理多边形中的值;
所述索引器用于提供所述索引和搜索功能;
所述优化模块用于提供大小写修改、行距裁剪、字段的合并和拆分、自定义脚本,以实现所述文本修改功能;
所述元搜索模块作为所述爬虫模块的补充,用于从互联网搜索数据,通过扩展爬虫系统以在爬虫系统上能够使用多种搜索引擎执行查询,能够从查询结果中收集结果,提供支持以调用搜索引擎提供的Web服务或模拟用户导航,以实现所述多种搜索引擎全局控制机制功能;
所述预览模块用于提供HTML、PDF、图像以及视频的预览,以实现所述文档预览功能;
所述拆分器用于将PDF或文档拆分为多个独立的部分,并允许用户单独查看拆分的独立的部分,以实现所述提取文档结构功能;
所述数据处理模块能够处理各种数据格式,以实现所述摄取数据库的输入数据功能;
所述搜索引擎用于提供所述高级搜索功能,包括特定语义和上文、经过训练的神经网络、统计、定义模糊度的搜索组合,智能特征提取搜索,多国语言搜索,词性标记搜索,支持文档拆分搜索和上下文分析搜索;
所述数据整合模块用于为各种数据源提供所述各种数据源连接器功能,通过使用反射来提取表和关系,以自动创建模式并从外部数据库中提取数据,所述各种数据源包括关系数据库、NoSQL数据库、消息队列、日志文件、来自互联网和维基百科网站的数据、Hadoop应用程序、文件系统、Microsoft Office文档、PDF、OpenXML格式、OpenOffice文档、XML、图片、导入数据库的存档文件;
所述查询管理模块通过将查询执行分布在集群的各个节点上,提供首选项以在保存数据的分片上执行查询,从而实现所述查询管理功能,所述查询管理模块提供的查询语法包括布尔值、模糊查询、基于Gremlin的图形查询、DisMax、GeoReferential以及脚本;
所述自然语言处理模块通过内置的NLP模块提供的自然分析和理解语言的方法,包括上下文自然语言处理和先进的神经用户行为分析,从自然语言中提取明确而有意义的信息,以实现所述自然语言处理功能;所述上下文自然语言处理具有从原始文本中理解和识别概念的能力,能够理解和分类表征查询的主题;所述先进的神经用户行为分析能够根据用户情况调整答案;所述NLP模块建立在神经模型、模糊模型、语义模型以及统计模型的基础之上,包括最大熵和推理算法;
所述机器学习模块用于提供机器学习功能,允许学习实体和关系之间存在学习关系而无需进行显式编程,学习过程受内容和对象关系驱动,并且考虑了行为和行为的历史分析,所述学习过程包括概念分析、与最终用户的交互,所述与最终用户的交互包括强制学习、通过示例学习、通过交互学习;
所述意义引擎用于通过理解分析信息的含义,以实现所述逻辑理解功能;所述理解分析信息的过程,包括概念化以确定所分析信息的模式和特征,情境化以识别信息的情境并映射特征,含义以对信息进行完整的描述。
进一步地,所述核心扩展模块包括管理用户接口模块、域控制模块、LDAP模块、LotusDomino模块、Fabric模块、WEBDAV模块、Web服务模块、适配连接器、证书模块以及海量存储存档器,所述管理用户接口模块、所述域控制模块、所述LDAP模块、所述LotusDomino模块、所述Fabric模块、所述WEBDAV模块、所述Web服务模块、所述适配连接器、所述证书模块以及所述海量存储存档器之间通过计算机应用程序接口相连并传送数据;
所述管理用户接口模块通过与市场上主流浏览器兼容的Web用户界面来管理与单个模块的管理相关的参数,以实现所述管理用户接口功能,所述参数通过分层和规范化的结构表示,所述管理用户接口功能支持网页界面、桌面、移动设备、功能配置器/系统参数、多租户逻辑;
所述域控制模块通过在单个网站上将系统的单个功能一对一映射,以保证唯一的关联用户功能,从而实现所述域控制功能;所述域控制功能能够从网站使用配置管理,支持多租户逻辑;
所述LDAP模块用于提供所述支持LDAP认证系统功能,所述LDAP模块的功能包括目录和已定义方案的管理、与开放式LDAP集成、支持openssl;
所述LotusDomino模块为LotusDomino IBM系统的集成模块,以实现所述支持从系统数据库中提取数据功能,所述LotusDomino模块的功能包括与数据库和视图直接连接、数据集成和规范化;
所述Fabric模块用于提供所述脚本管理功能,通过使用每个SSH的终端来管理脚本,以实现系统分布式部署和配置的自动化;所述Fabric模块的功能包括使用Python编写脚本,支持SSH安全连接,多种环境管理,分布式和并行任务管理;
所述WEBDAV模块通过公开HTTP协议对文件档案的访问,以提供所述支持Web分布式创作和版本控制协议功能;所述WEBDAV模块还提供了阻塞正在写入的资源、管理并发写入的可能性,所述WEBDAV模块还提供了RFC2518和RFC4918中包含的功能和操作支持;
所述Web服务模块通过使用Web服务的通信机制,以及通过公开套件的所有模块的特定功能以实现所述支持应用程序之间的互操作性功能;所述Web服务模块支持SOAP标准、REST标准以及密码学;
所述适配连接器通过标准硬件接口的专有公开协议信息,提供所述与第三方硬件系统接口功能,支持通过串口、USB、以太网硬件进行通讯,通过解析器编辑的Web界面引导生成;
所述证书模块用于实现所述许可证分配功能,包括时间许可、软件和系统许可证的控制、多租户架构中的许可证控制;
所述海量存储存档器用于实现所述处理备份策略管理流程中的操作工作流功能,所述海量存储存档器在存档方面与当前的存档方法保持一致,包括备份工作流中映射的策略、程序的准确性控制。
进一步地,所述文本处理模块包括导入模块、分配器、文本特征提取模块、文本索引器、文本搜索器、语义搜索模块、语言管理模块、分类模块、Spider模块、文档工作流引擎、演示引擎、文本预览模块、报告引擎、历史/时间线模块、管家模块、地理数据/地理名称模块、电邮认证模块、OCR模块、合作写作模块、本体模块、一致性检查器、高级PDF处理器、极端内容处理器以及版本控制器,所述管理用户接口模块、所述域控制模块、所述LDAP模块、所述LotusDomino模块、所述Fabric模块、所述WEBDAV模块、所述Web服务模块、所述适配连接器、所述证书模块以及所述海量存储存档器之间通过计算机应用程序接口相连并传送数据;
所述导入模块用于实现所述文件及数据库信息导入系统功能,所述导入模块允许将有关文件的信息上传至系统,与数据库和文件系统连接以恢复需要储存的信息,所述信息是通过专有协议发布的文档、日志或数据;
所述分配器用于根据预定义的逻辑通过所述导入模块拆分导入的文档,从而实现所述文档拆分功能;所述分配器核实文件结构之后,能够按照章、段、小段或按页进行拆分;所述分配器对文档的拆分功能取决于文档的原始格式,所述分配器对于拆分的单独部分保存文档中存在的层次关系,允许重建及可导航性;所述分配器还可以通过专有试探法拆分管理非格式化文档;
所述文本特征提取模块用于提供所述文本特征提取功能,所述文本特征提取模块允许提取相关数据并呈现在系统上传的文档中;所述文本特征提取模块能够提取的特征包括税号、信用卡代码、驾驶执照追踪号码、电子邮件地址、身份证追踪号码、护照追踪号码、Imei代码、Imsi代码、IP地址、Mac地址、网址、车牌、摩托车牌照、日历日期、姓名、增值税号、电话号码、街道和地址、地理定位数据,所述地理定位数据可配置为国家和居民人数;
所述文本索引器用于构建链接到上传信息的一系列索引,以实现所述建立文本索引功能,所述文本索引器为分布式和冗余的结构以保证最大可靠性,所述文本索引器的索引基本元素包括用于索引系统使用的引擎、保存索引信息的路径、参数配置、定义数据索引规则的字段、数据过滤器;
所述文本搜索器用于提供所述文本搜索功能,所述文本搜索器能够在使用所述导入模块上传的文档中进行全文检索和语义检索;所述文本搜索器对应的搜索文本可由一个或多个词组成,支持布尔运算符和、或、非,通过使用嵌套括号支持运算符的优先级控制,过滤与文档相关的元数据,支持字段修饰符,特别支持以下搜索:“all”搜索所有词条的对应关系;“any”搜索一个或多个术语的对应关系;“startswith”搜索词首部分的对应关系;“endswith”搜索词条最后部分的对应关系;“regex”使用正则表达式运算符,区分大小写;“iregex”使用正则表达式运算符,不区分大小写;“exact”搜索词条的精确对应关系,区分大小写;“iexact”搜索词条的精确对应关系,不区分大小写;“包含”搜索包含搜索文本的所有术语;大于x的“gt”数值运算符;“gte”数值运算符大于等于x;小于x的“lt”数值运算符;“lte”数值运算符小于或等于x;介于x和y之间的数值运算符;“in”数值运算符从值列表开始搜索对应关系;
所述语义搜索模块通过引入“信息的相关性”概念,克服并扩展全文搜索的“对应性”概念,以实现所述全文搜索功能;所述语义搜索模块能够同时考虑词的本身含义和词在上下文的含义,所述语义搜索模块还考虑信息的结构并通过使用语义专有词汇表来链接;所述语义搜索模块支持多种语言搜索,所述语义搜索模块还支持字段修饰符,特别支持以下字段搜索功能:“sw/stopwords”可以删除停用词;“loc/locutions”允许使用短语;“syn/synonyms”允许使用同义词;“exp/expansion”允许使用名称和动词的扩展;“nlp”启用自然语言的所有功能;“lang”强制语言使用;“hypernym”允许使用上位词;“antonym”允许使用反义词;“similar”能够阐述相似的概念;所述语义搜索模块还支持进一步的字段修饰符,允许进一步细化搜索;所述语义搜索模块返回的结果包括文档、在文档中的位置、相似度评分、对已执行查询的引用、摘要、相似文档;所述语义搜索模块从搜索返回的文档数量是可参数化的,搜索能够在系统中并行化,以增加对引入的查询的响应速度;
所述语言管理模块用于管理词汇、识别和处理欧洲语言和亚洲语言,从给定语言的查询开始对多个数据库进行搜索,以实现所述跨语言管理功能;所述语言管理模块还管理由TNP可信网络平台直接定义和实现的语义网络;所述语言管理模块的功能包括词汇管理、欧洲语言和亚洲语言的管理、跨语言词汇管理、语义网络管理;
所述分类模块通过创建链接到导入文档的信息领域的类别方案,以实现所述文档分类功能,所述分类模块支持IPTC国际新闻通讯委员会标准的分类方案,用于实现所述分类模块的引擎有贝叶斯、布尔、文档相似度、关键字、概念与类别关联度、统计、SVM或支持向量机,每个引擎以不同的方式工作,并根据需要和应用的知识领域需要做不同的配置,这些引擎可以同时应用,以保证分类的最大精度;
所述Spider模块用于提供所述数据的爬取存储和管理功能,所述Spider模块包括进程类、管理不同的流程引擎、管理不同的存储支持、管理用于搜索数据预处理和后处理的中间件,所述进程类用于管理多级队列和要搜索的地址,所述管理不同的流程引擎用于按目标配置,所述管理不同的存储支持用于模块上传内容的保存、导入、索引;所述Spider模块能够通过多线程进程对预先选择为目标的url进行下载和分析,这些url是利用适用于http请求的库获取的,这些库不仅允许获取DOM文档对象模型,还允许获取其他信息,例如会话、cookie、标题等,一旦下载了链接的DOM,就会翻译一个中间件,用于提取和调整下一个要搜索的链接,因为通过使用配置阶段选择的正则表达式、过滤器和标签,可以提取它指向的链接(CSS、图像、JS、插入的链接、标签a、框架等),将从这个中间件中提取的链接排列起来,以便进一步分析;提取链接后,答案的对象移动到当前实例进行进一步处理;在这项活动中,通过临时创建的规则,实时进行深入的需求分析、特殊提取、关联、语义分析和其他感兴趣的操作;这些规则是在专用于客户的模块中创建的(如果不是通用的模块),其目的是满足特定的项目要求,所述Spider模块允许下载、解释和分类来自内部和外部来源的信息;内部来源可以是:商业网站、商业维基、商业论坛、商务聊天工具、业务文件系统(内联网),外部来源可以是网站、维基和论坛、Rss和Atom feed、聊天工具;为了克服在网站爬取期间出现的各种问题,所述Spider模块提供了许多功能列表,例如:cookie管理、从浏览器导入cookie、使用robot.txt执行网络礼仪标准、最大跳数的设置、为页面和文档设置“留在此处”、可定制的选择性下载每个类型的文档(仅限ms word)、可自定义的选择性下载每个扩展的文档(仅限doc、xls)、抓取和禁用“死”链接的错误计数、使用用户和密码进行http身份验证、设置下载文件的最大尺寸、设置下载任务的最大维度、设置爬取频率、设置爬取优先级、设置使用频段的百分比、所有链接的强制更新设置、保存页面内容、跳过图像、跳过视频、跳过文件音频、品类管理、使用正则表达式管理爬取限制、绕过绑定的代码模块(例如:防窃电系统、认证系统、抗爬取系统)、RSS提要的管理;通过所述Spider模块的扩展模块允许定义简单的应用程序调用,以满足不同的功能需求,而无需修改爬取本身的代码;所述扩展模块包括主站点处理模块、爬取启动模块、爬取结束模块、链接爬取开始模块、链接爬取结束模块、文档爬取开始模块、文档爬取结束模块;所述Spider模块能够完成的操作包括Cookie操作、网址操作、文件处理,所述Cookie操作包括认证、修改、取消,所述网址操作包括会话数据消除、锚点消除、不必要地址消除、插入地址,所述文件处理包括添加元数据、文件禁用;
所述文档工作流引擎用于提供所述管理与一个或多个文档相关的逻辑细化流程功能,所述文档工作流引擎为基于属于BPMN2.0标准的功能元素,使用图形Web编辑器来起草图表流,允许有效地映射文档管理的结构和步骤,精确识别与文档相关的版本、个人责任和修改操作的验证时刻,还允许映射和保留与文档相关的业务流程,将其标准化为通用标准;所述文档工作流引擎的元素包括文档、操作、网关、事件,所述文档为系统中需要管理的文档,所述操作为预定义的需要对文档执行的操作,所述网关用于检查操作之间的流程,支持布尔逻辑AND OR NOT,能够插入预定义控件,所述事件能够插入预定义事件,生成的事件包括来自系统的事件(例如保存的文件、截止日期等)、细化开始序列的唯一标识符、细化停止序列的唯一标识符;所述文档工作流引擎管理的操作包括修订分配、审批分配、在文件系统中的搜索、电子邮件的发送、前端Web界面上的事件通知;所述文档工作流引擎管理的网关包括文件状态控制、在元数据或文档中定义的状态、修订的执行、审批的执行;所述文档工作流引擎管理的事件包括任务产生的信号、截止日期、系统事件;
所述演示引擎用于提供所述网页的可视化动态引擎功能,所述演示引擎的可视化基于基本模板,所述基本模板根据人体工程学和技术界面需求进行预定义、可扩展和可定制,允许实现具有可重用和可定制元素的界面;所述演示引擎支持管理的动态内容包括分层模板、应用界面结构的可重用性、HTML5,所述演示引擎支持管理的静态内容包括格式规范化、性能的可扩展性;
所述文本预览模块用于提供所述文档预览功能或文档的其中一部分的预览的创建功能,所述文本预览模块是以最常见的标准提供系统中包含的文档,而无需以原始格式下载和打开它们;所述文本预览模块用于打开文档的特定软件能够根据需要选择;所述文本预览模块预览的生成以同步方式进行,不是在用户请求期间生成,而是在数据库中输入文档时立即处理,类似功能的引入允许在不同类型的设备和格式上立即获得信息;所述文本预览模块还用于管理文档的缩略图,所述文本预览模块的功能包括生成文档预览、基于编程过滤器在部分文本的预览中突出显示、生成文档缩略图、预览和缩略图的异步生成;
所述报告引擎用于提供所述演示报告生成功能,所述报告引擎能够基于预定义和可重复使用的模板生成报告,还支持转换格式以在移动设备上显示信息,报告的生成和显示也能够在推送模式下受到系统事件到期的影响;所述报告引擎能够在系统从导入的文档到系统日志的每个部分生成报告,所述报告引擎的功能包括生成关于系统元素的报告、生成文件状态报告、管理日志推送通知、支持异构设备上的可视化;
所述历史/时间线模块用于实现所述存储数据操作细化管理功能,所述历史/时间线模块能够显示对系统数据库中存储的数据进行操作的时间序列,使得信息使用的可塑性成为可能,所述历史/时间线模块通过时间序列对数据或文件执行的操作序列、文件发布日期的分析、来自对受监控设备的日志操作的采样的数据序列相关联;所述历史/时间线模块的功能包括存储对文档文本的修改、存储链接到文档的事件、存储与文档相关的详细说明、存储对文档的访问、存储来自受监控设备的数据序列、单个文档的时间线管理;
所述管家模块用于提供所述管理系统通知功能,所述管家模块能够将系统通知链接到系统事件、文档状态以及对数据进行操作的结果,所述系统通知能够发送给单个用户或组,所述管家模块通过利用在单个模块生成的事件上定义调度的特性以实现可定制;
所述地理数据/地理名称模块通过基于标准拓扑(城市、街道、名胜古迹)和与其链接的附加数据来实现所述管理地理本地化数据功能,将地理领域中阐述的信息语境化;所述地理数据/地理名称模块还链接了由所述文本预览模块设计的表示系统,用于数据的图形表示;所述地理数据/地理名称模块还包含ip映射地理位置的信息;所述地理数据/地理名称模块支持将地理信息作为插件插入到网页的表示系统中,以实现可视化的图形化管理表示;所述地理数据/地理名称模块包括的附件信息有地理坐标、人口、国家、货币、语言、不同语言的翻译、时区、邮政编码、标签;
所述电邮认证模块通过使用可靠来源颁发的数字证书,以实现所述管理认证电子邮件系统功能;所述电邮认证模块向发件人提供具有法律价值的电子文档,证明电子邮件的发送和交付数字文档,证明发送和交付意味着向发件人提供收据,该收据代表已发生的消息发送和可能的附加文件的法律证据,同样,当消息到达收件人时,管理员发送已发生或失败传递的回执,并带有精确的时间指示;如果发件人丢失了收据,所进行的操作的数字跟踪,依法保存30个月,允许以相同的法律价值复制收据本身;所述电邮认证模块还包括电子邮件加密的支持模块;所述电邮认证模块的功能包括管理发送和接收经过认证的可靠电子邮件的报告、密码管理;
所述OCR模块用于导入文档图像的扫描仪的管理,以实现所述识别和提取扫描仪扫描的文档内容功能;所述OCR模块通过一系列的OCR算法对通过扫描仪导入的文档图像进行处理,以提取文档的文本内容和图形内容;所述OCR模块通过连接的图像分类器识别图形内容中的相似图像和对象;所述OCR模块的功能包括OCR,管理图像、文本的分割,图像制作;所述图像制作包括基本过滤器集、搜索相似图像、在图像中搜索对象;
所述合作写作模块通过使用通用和共享的编辑器来实现所述协作编写文档功能,所述合作写作模块将文本书写传送到订阅公共区域的一组用户,文档的编写是一个递归操作,其中每个用户都被要求公开其想法,评论其他人的想法;所述合作写作模块还支持共享白板来起草计划;所述合作写作模块能够从Microsoft office和OpenOffice中导入文档,并作为后续修改的基础;所述合作写作模块的功能包括管理员面板的管理、用户注册面板的管理、从办公套件导入文件、共享编辑器所见即所得、评论管理、插入图像、插入链接、共享白板、基本的图形组件(如线条、连接器、二维形状);
所述本体模块用于提供所述处理与不同知识领域相关的词汇功能,所述本体模块能够根据需要在系统中已有的词汇和可定义的词汇之间进行选择,通过语义网络表示词汇表,用逻辑形式描述复杂的场景;所述本体模块使用外部资源自动构建,然后由本领域专家参与进行细化;所述本体模块通过利用本体中的形式化知识,能够对数据应用推理算法和一致性控制,以确保丰富和精确的搜索结果;所述本体模块的互操作性和重用可能性由以下标准格式模块支持提供:RDF架构(RDFS),本体网络语言(OWL)和语义网络规则语言(SWRL),RDF(尤其是RDF/XML、RDF/JSON、N-Triples、N-Quadruples);所述本体模块的功能包括现有的本体集合、用于创建或修改本体的编辑器、根据标准格式从网络导入本体、根据需要定义复杂性的推理引擎;
所述一致性检查器用于根据预定义的结构在包含的数据和图形/逻辑布局方面检查文档合规性,以实现所述检查文档合规性功能;所述一致性检查器只允许导入符合特定格式的文档,并指示拒绝导入的文档违反了哪些规则;所述一致性检查器通过使用现有的标准模型响应常见的验证案例,所述一致性检查器还能够使用基于灵活性规则的高度可定制的编辑器,所述一致性检查器的功能包括自动分析文档格式、现有的不同的文档模型、通过合规性规则创建新模板;
所述高级PDF处理器通过识别并重构布局,提供文档索引的构建,提取图片、表格以进行微内容的高级管理,以实现所述阅读具有非标准结构和字符的加密pdf功能;所述高级PDF处理器的功能包括加密pdf的管理,识别文档布局,提取复杂的内容(如表格、图像和微内容);
所述极端内容处理器通过应用术语的相关算法、支持向量分类器和聚类算法,以实现所述从文本中提取概念功能;这些算法的参数配置是完全可定制的;所述极端内容处理器的功能包括从文本中提取和关联概念,自定义算法参数;
所述版本控制器通过管理界面根据预定义或用户可定义的框架来管理加载到系统中的文档版本,以实现所述管理文档版本功能;所述版本控制器的功能包括编码模式编辑器、默认编码。
进一步地,所述信号/数据处理模块包括代理模块、探查模块、神经网络模块、模式匹配模块、集群/聚合模块、模式异常检测模块、统计模块、预测惯性引擎、分析引擎、相关器、时间序列分析模块、互相关器、规则匹配模块、描述性统计模块、分析器、鱼骨分析模块、KPI模块、What-if模块、Tableau模块、趋势分析模块、多维OLAP模块、主观分析模块、高级Web集群/提取模块,所述代理模块、所述探查模块、所述神经网络模块、所述模式匹配模块、所述集群/聚合模块、所述模式异常检测模块、所述统计模块、所述预测惯性引擎、所述分析引擎、所述相关器、所述时间序列分析模块、所述互相关器、所述规则匹配模块、所述描述性统计模块、所述分析器、所述鱼骨分析模块、所述KPI模块、所述What-if模块、所述Tableau模块、所述趋势分析模块、所述多维OLAP模块、所述主观分析模块以及所述高级Web集群/提取模块之间通过计算机应用程序接口相连并传送数据;
所述代理模块能够从软件总线下载数据,并将数据直接插入到数据库中,以实现所述从软件总线获取数据功能;所述代理模块能够识别常见的通信协议或在规则已知时适应新的协议,所述代理模块的功能包括从软件总线下载数据、可配置的协议解析器、推/拉下载、时间下载、并行下载;
所述探查模块用于提供所述从硬件设备下载数据功能,并将数据直接插入到数据库中;所述探查模块能够识别常见的通信协议或在规则已知时适应新的协议,所述探查模块的功能包括从总线/设备下载数据、可配置的协议解析器、推/拉下载、时间下载、并行下载;
所述神经网络模块结合了神经网络算法中的编程功能,以实现所述分析和发现重复模式、数据之间关系功能;神经网络算法是具有特定属性的计算模型,能够适应、从经验中学习、概括、聚类和组织知识;所述神经网络模块的功能包括编辑器模型、监督学习、无监督学习、强化学习;
所述模式匹配模块用于所述神经网络模块的特定化,所述模式匹配模块检查数据序列中是否存在默认模式;经过训练的神经网络能够识别模式以及模式的类似变体,所述模式匹配模块只能在定义的时间窗口内识别模式;所述模式匹配模块的功能包括模式规划/标准化、模式识别、识别模型的仿真/检查;
所述集群/聚合模块用于所述神经网络模块的特定化,通过自组织映射SOM实现分类问题由特定类型的网络解决,所述自组织映射SOM的学习算法为所述无监督学习的一种表述;所述集群/聚合模块的功能包括分类、基于规则的聚合、自动聚合、模型仿真/检查;
所述模式异常检测模块用于所述神经网络模块的特定化,具有实现识别偏离约定和定义模型的情况的能力;所述模式异常检测模块通过将相关标准应用于反向传播神经网络的输出数据,具有扩展功能的同时并具有考虑多个系列数据的功能;所述模式异常检测模块在默认数据的时间窗口上运行,所述模式异常检测模块还能够检测误报;所述模式异常检测模块的功能包括异常识别、模型仿真/检查;
所述统计模块包含用于研究从经典和高级统计中的得出的定性和定量数据的算法系列,以实现所述高级统计功能;所述算法系列包括
描述性统计,所述描述性统计旨在通过其图形工具(条形图、饼图、直方图、箱线图)和指标(统计指标、位置指标作为平均值、变异指标作为方差和浓度、相关性指标等)综合数据,描述观察数据的突出方面,塑造统计内容;
推论统计,所述推论统计的目的是做出陈述,错误的可能性是可控的;所述推论统计是关于观察到的现象的理论性质(概率定律),这种性质的知识将允许进一步进行预测,所述推论统计与概率论密切相关,最重要的是估计理论(点估计和区间估计)和假设检验;
探索性统计,探索性统计通过综合方法对实验产生的数据进行研究,以便对所研究的现象所涉及的概率定律提出假设;探索性统计采用数据挖掘实现,所述数据挖掘是一个过程,旨在发现相关性、关系、新的和有意义的趋势,筛选存储在存储库中的大量数据,使用关系识别技术以及统计和数学技术;所述数据挖掘采用以下技术:
分类,使用成员类别已知的个人信息确定将个人分配到已知类别之一的规则或标准;
分割,用于识别先验未知的子组或类,分析数据以将相似的个体分租;
预测,用于预测先前未分析过的个体的目标变量的值;
关联分析,用于识别更频繁、同时或逐步发生的事件,能够识别两个或多个现象或行为之间的密切关系,提取有关解释现象未来的依赖关系或关系的信息,定义预测规则;
所述预测惯性引擎通过使用源自经典统计学、数据挖掘和博弈论的一套技术,分析当前和历史事实,以实现所述未来事件预测功能;所述预测惯性引擎通过更多因素捕捉关系,以定义与特定条件集相关的潜在风险级别,从而指导决策者;所述预测惯性引擎的功能包括历史系列分析、事件生成、预测、关系分析;
所述分析引擎为基于一个现实模型,允许在分析师或用户强加的条件下评估和预测一系列事件动态,以实现所述评估和预测一系列事件动态功能;所述分析引擎嵌入仿真系统,所述分析引擎定义为在评估仿真系统中发生的一组过程,这些过程允许理解仿真系统的工作逻辑;所述分析引擎的功能包括编辑器中模型的分析和实现、仿真、仿真模型的验证;
所述相关器通过使得第一个变量的每个值都以特定的规律与第二个变量的值相匹配,以实现所述评估两个随机变量之间的关系功能;两个随机变量之间的关系不一定是因果关系,而只是一个变量随另一个变量而变化的趋势,有时变量值取决于变化,有时它们是共同的,有时它们是相互依赖的,比较仅发生在通过逻辑链接的变量之间;两个变量之间的相关程度用相关指数表示,这些假设值介于负一(当所讨论的变量呈负相关时)和单位(当存在绝对相关性时,变量的变化对应于严格依赖于其他变量的变化),相关指数为零表示不存在相关性;所述相关器的功能包括变量相关性、事件生成;
所述时间序列分析模块通过定期分析时间序列数据,寻找数据序列中的内部和公共顺序,应用线性回归的方法从一组过去的行为中推导出未来的行为,以实现所述推导未来行为功能;所述时间序列分析模块能够检测数据中的线性和混沌行为,能够进行基于频域和基于时域的分析,能够定期分析时间序列数据,寻找数据序列中的内部和公共顺序,能够对数据的未来提出假设;所述时间序列分析模块的功能包括数据的时间分析、未来的可预测性、异常或潜在异常情况的检测;
所述互相关器用于测量两个或多个信号或幅度同步的程度,分析第一组与第二组在时间上错位的数据集之间的相似度,或测量错位的程度,以实现所述检测、识别和突出异构数据时间序列中的异常情况功能;所述互相关器的功能包括通过应用标准运算符进行互相关、异常情况的识别、操作系统验证、验证应用于数据时间序列的假设或规则;
所述规则匹配模块用于检查规则是否得到遵守,能够并行检查规则,返回不合规状态,以实现所述预定义规则的应用/验证功能;
所述描述性统计模块通过收集和分析与特定对象组相关的数据的方法,得出结论并进行预测,以实现所述人群信息进行收集和汇总功能;所述描述性统计模块以被研究人群信息的数据收集、分类和汇总为标准,对人群信息进行收集和汇总的指标族包括
位置指数(平均值、中值、众数等),
离散指数,即变异性(方差、标准差、四分位距等),
形状指数(对称性、峰度等);
所述描述性统计模块根据对样本的观察,可以得出整个总体的结论;除了随机引起并因此被定义取消的测量误差,所述描述性统计模块获得的结果可以被定义为确定的;所述描述性统计模块能够有条不紊地组织、总结和呈现数据、合成数据;所述描述性统计模块包括位置索引支持、分散指数支持、形状索引支持;
所述分析器通过生成与分类信息相关联的过滤器、规则和通知事件,配置分析并应用在多个源上并行运行,通过比较结果来验证分析,以实现所述搜索和分类从内部和外部来源检索的信息的配置文件功能;所述分析器的功能包括配置文件的配置、分类器和过滤器的配置、在多个源上并行执行、将配置文件同时应用于多个源的差异突出显示引擎;
所述鱼骨分析模块通过使用鱼骨法的故障原因分析以实现所述审查中的信息集分析功能,所述鱼骨分析模块的功能包括原因识别、效果识别、关系的可视化表示;
所述KPI模块通过计算监控业务流程效率的指标集以实现所述生成绩效全局指标功能;所述KPI模块提供了一组标准指标,能够自定义现有指标并定义新指标,所述KPI模块能够管理与考虑中的指标相关联的编程阈值,并在超出之前设置的阈值时生成通知,所述KPI模块能够关联一个或多个指标以定义复杂的控制逻辑;所述KPI模块的功能包括标准指标、可定制的指标、阈值管理和事件生成、指标相关性、复杂的控制逻辑管理;
所述What-if模块通过定义应用于业务流程的参数模型,改变输入变量值来计算相关的“场景”,分析有助于观察输入变量之间的依赖关系并评估可能的选项,以实现所述收敛到良好解决方案功能;所述What-if模块的模型通过采用反馈机制来表达,将输出变量的计算值与输入变量相关联,实现有助于收敛到良好解决方案的记忆机制;所述What-if模块能够生成可与工作流相关联的可视化格式报告;所述What-if模块的功能包括输入变量参数化、将函数分配给输入变量、反馈、情景计算、可视化报告管理;
所述Tableau模块通过与概要模式中定义的偏差相比,生成平衡计分卡,以实现所述对公司的运营流程偏差进行因果分析功能;所述Tableau模块生成的指标的数量和类型是完全可配置的,所述Tableau模块的功能包括编辑器网络信息仪表板;
所述趋势分析模块通过识别一组数据中的递归模式,以实现所述跟踪所考虑的数量的未来行为功能;所述趋势分析模块的功能包括递归模式分析、事件生成;
所述多维OLAP模块通过OLAP技术执行处理,以实现所述重新排列数据库中存在的数据结构功能;所述多维OLAP模块的功能包括通过集群定义生成多维数据,支持切片、切块、向下钻取、钻取、钻通操作;
所述主观分析模块通过定义和细化NLP搜索形式,以实现所述主观信息分析功能;所述主观分析模块能够生成树和图形以可视化概念之间的关系,并定义权重以分析重要性;所述主观分析模块的功能包括基于域从数据中提取重要本体、模式匹配、相关性和分类;
所述高级Web集群/提取模块通过应用数据融合策略,协同应用多种类型的模式匹配和特征提取算法,以实现所述海量数据的数据聚类功能;所述高级Web集群/提取模块的功能包括应用算法评估、基于定义的模型开发和实施数据融合策略。
进一步地,所述定制技术模块包括过程监控模块、过程优化模块、响应器、跟踪器、变更管理模块、咨询模块、人员模块、社区建设模块、Wiki增强器、调查模块、计划管理模块、日历模块、日志查看器、电邮管理模块、附件管理模块、群发邮件管理模块、票务模块、Feed模块,所述过程监控模块、所述过程优化模块、所述响应器、所述跟踪器、所述变更管理模块、所述咨询模块、所述人员模块、所述社区建设模块、所述Wiki增强器、所述调查模块、所述计划管理模块、所述日历模块、所述日志查看器、所述电邮管理模块、所述附件管理模块、所述群发邮件管理模块、所述票务模块、所述Feed模块之间通过计算机应用程序接口相连并传送数据;
所述过程监控模块通过细化所述工作流模块,以实现所述定义操作程序的详尽监控过程功能;所述过程监控模块的功能包括工作流编辑器专业化、程序集合的预先配置;
所述过程优化模块为所述过程监控模块的扩展,将反馈分析技术用于工作流程中描述的参数优化和逻辑序列;所述过程优化模块的功能包括工作流编辑器细化、将运筹学算法应用于流量和路径优化;
所述响应器通过利用所述搜索引擎的功能和一组预定义的模式,基于使用上下文,在信息搜索阶段引导用户,遵循迭代过程,以实现所述获取准确的研究信息功能;所述响应器从简单或复杂的查询开始,能够提出提高结果质量的想法,如果这些想法不足,则通过查询扩展技术增加,否则,通过构建信息过滤器进行精炼或采用相似结果进行分组;所述响应器的功能包括查询构建、问题的自助/自我总结/更正、通过语义关系查询扩展、通过分面高级过滤、结果聚类;
所述跟踪器用于跟踪在IT系统内操作的单个用户的行为和动作,以实现所述跟踪单个用户的行为和动作功能;所述跟踪器的功能包括用户分析、规则验证和警报生成;
所述变更管理模块通过控制与公司内部变更管理阶段相关的流程和数据,以实现所述预定义工作流功能;所述变更管理模块的功能包括流程导入、流程检查;
所述咨询模块通过验证流程和内部文档之间的潜在差异,以实现优化后的参数与流程情况比较功能;所述咨询模块的功能包括工作流导入、工作流分析和比较、法律检查;
所述人员模块通过从系统内部或外部的大量信息(Web资源)中提取信息,以实现所述人与人之间的关系网络建模功能;所述人员模块能够在专有数据库中自定义或恢复有关人员的信息,所述专有数据库包含超过200万人的来自百科全书条目;所述人员模块能够处理多种类型的关系,包括显式类型,即声明的两个人之间的关系(例如某种程度的亲属关系)和隐式类型,即系统根据可定制的规则(例如交换的数量)取下的关系;所述人员模块分析通过连接人的信息流、网络内个人的中心度以及所讨论社区的统计特征(例如平均连接数);所述人员模块的功能包括内部或外部人际关系的网络建模、从可定制的规则推断关系、关系的统计分析;
所述社区建设模块能够根据大量特定特征或特征(例如兴趣概况、角色、工作项目等),实现所述对类似的个人进行分组功能,以通过通知系统鼓励主动联系和团队合作;所述社区建设模块还能够通过对从虚拟社区(例如Facebook、Twitter、网络论坛)获得的数据执行分析并应用社交网络分析算法来建议有效的营销策略;所述社区建设模块的功能包括从Web/Internet通信定义交互社交网络、社区检测;
所述Wiki增强器通过自动或半自动方式丰富具有超文本信息的文本文档的内容,以实现所述改进Wiki内容导航功能;通过所述Wiki增强器,能够在文档的上下文中查看信息,而不会泄露可能导致从原始上下文转移注意力的细节,并且通过浏览相关链接进行查看;所述Wiki增强器能够添加规则以自动生成文档,也可以让系统根据已经输入的信息自动插入最有趣的链接,能够使用网络上可用的信息,例如维基百科等在线百科全书,在地图服务(例如谷歌地图)或企业网站上进行协调,以丰富文档信息内容;所述Wiki增强器的功能包括丰富文本信息、基于分类规则或全自动的连接发现、内部和外部网络数据集成;
所述调查模块通过协作、半协作、非协作和客观的技术管理以实现所述调查功能,所述调查模块的调查分析是在行为研究层面以完全透明的方式使用相关日志进行的;所述调查模块的功能包括日志分析,随机调查,合作、半合作、非合作调查,行为研究;
所述计划管理模块通过使用甘特和Pert标准工具的规划支持,以实现所述项目多重管理功能;所述计划管理模块使用RACI矩阵(各级责任)为人力资源和责任的重新分配提供管理/自动协调功能,所述计划管理模块的功能包括人力资源管理、规划管理、分配给人力资源的工作流管理;
所述日历模块用于支持所述日历管理和时间事件功能,所述日历模块是一个基本的系统模块,允许管理大量关于时间的案例研究,例如约会管理或企业任务;所述日历模块与推送通知系统完全集成,因此来自系统的通知消息将在最合适的时刻(在特定事件之前、定期、在预定事件发生时)发送或显示,所有时间管理操作都可以通过网络界面或移动设备进行管理;所述日历模块的功能包括可定制事件的管理、按时间顺序组织任务、与推送通知系统集成、多渠道界面(网络和移动);
所述日志查看器通过对数据相关性和互相关性的综合支持,以实现所述高级日志分析功能;所述日志查看器功能包括导入日志、通过解析器编辑器进行专有格式管理、预过滤;
所述电邮管理模块用于提供所述邮件系统管理功能,支持IMAP和POP协议,能够用作信息输入系统和信息输出系统,持续控制一个或多个邮箱以供信息管理系统使用;所述电邮管理模块能够将邮件根据内容进行过滤,就好像邮件是普通文档一样,也可以根据邮件的元数据(例如发件人、源主机等)进行过滤;所述电邮管理模块能够使用常见的电子邮件协议定期发送即时报告或信号警报;所有电子邮件渠道特性,包括附件和特殊格式(例如HTML电子邮件)都在输入和输出中处理;所述电邮管理模块的功能包括输入和输出电子邮件协议管理、附件检索和超链接探索、管理高级格式样式(html);
所述附件管理模块为与邮件系统相关的文件解析和管理模块,用于提供所述电子邮件附件管理功能;所述附件管理模块以受控和非受控的方式自动提供内容的通知、分类和分发,能够与故障单系统集成,验证附件的一致性,通知潜在的不一致/不准确,并及时报告给收件人或发件人;所述附件管理模块的功能包括解析不同编码和格式的附件、文件与其原始源元数据的关联、像普通文件一样进行附件分析和扫描;
所述群发邮件管理模块允许在没有任何限制的情况下处理分发列表管理(邮件列表)和大量电子邮件/营销活动,以实现所述群发邮件管理功能;列表管理可以在手动或自动模式下执行,所述群发邮件管理模块使用最先进的社区检测技术,能够从电子邮件交换开始识别对某个主题或论点感兴趣的用户子集;所述群发邮件管理模块的功能包括邮件列表管理、用户组自动生成;
所述票务模块允许管理工单生命周期或警告,从工单创建开始,无论是手动还是自动,在发生某些外部事件时,通过用户或权限流程,管理各种状态直到关闭,以实现所述工单管理功能;所述票务模块还提供了声明对其他工单或其他类型输出(例如用户响应、正在进行的处理结果)的依赖以及与外部系统接口的能力;所述票务模块的功能包括票务系统生命周期管理、票证之间的依赖关系、与外部系统接口;
所述Feed模块用于提供所述XML提要管理功能,所述Feed模块能够实时监控支持不同数据发布标准的多个机构站点、博客或网络服务的更新,能够组织任何提要编号,将它们定位在可以以自动或手动方式定义的类别系统中;所述Feed模块将提要以集成格式呈现,可以作为正常文档流来滋养系统;所述Feed模块将监控的提要能够用作所述工作流模块的附加信息源;所述Feed模块的功能包括Feed生命周期管理(插入、更新、频率更新、取消),索引(从反馈和研究中提取特征),手动、自动和半自动分类,资源分散和新资源研究,源自动集成和重复删除。
进一步地,所述接口功能模块包括移动设备管理模块、图形关系模块、合作管理模块、W3C验证模块、用户/社区墙模块、交互式Web助手模块,所述移动设备管理模块、所述图形关系模块、所述合作管理模块、所述W3C验证模块、所述用户/社区墙模块、所述交互式Web助手模块之间通过计算机应用程序接口相连并传送数据;
所述移动设备管理模块用于提供所述移动设备界面管理功能,所述移动设备管理模块检测连接的设备并启用所需的样式表以提供具有最佳用户体验的相同功能集,所述移动设备管理模块还提供了图形轻量版本的加载,以优化带宽使用;所述移动设备管理模块支持界面系统触摸屏;
所述图形关系模块通过Web技术,用可定制的图标表示知识领域中的每个相关实体类型,以实现所述图形直观方式显示相关性功能;所述图形关系模块以自动方式组织实体,为了使显示更清晰,允许在实体和关系上定义过滤器,并考虑详细信息面板的外观,允许扩展图形表示的摘要信息;所述图形关系模块的功能包括用随机数量的节点表示复杂图、实体的缩放和分组、有机会在对象图中手动移动实体、实体详情视图、自动布局生成、节点和关系上的过滤器定义;
所述合作管理模块简化了用户通过系统的协作和参与,通过未预先确定大小的超链接消息,以实现所述同步通信(即时消息)和异步通信(私人消息)支持功能;所述合作管理模块的功能包括即时通讯、私信、协作写作;
所述W3C验证模块根据指定法律的可访问性标准和后续修订的html代码,以实现所述html代码验证功能;所述W3C验证模块的功能包括HTML验证、根据适用法规对网站进行分析和合规性验证;
所述用户/社区墙模块用于提供所述启用应用程序中各种实体的注释支持功能;系统中的每个元素,包括文档和用户,都可以从用户或软件代理(自动)收集一组消息,这些评论对系统用户可见,并具有促进他们工作的实用程序,但不会改变原始内容;所述用户/社区墙模块的功能包括启用对系统组件的评论;
所述交互式Web助手模块能够显示用户手册和导航界面,通过直接出现在最感兴趣的区域中的交互式和非侵入性提示,以实现所述指导用户使用系统功能;所述交互式Web助手模块能够为每个用户定义帮助器配置,以便每个用户可以根据自己的系统知识来决定是否需要帮助;所述交互式Web助手模块能够向不同类型的用户建议不同的网络助手主题,以使建议更有针对性;所述交互式Web助手模块的功能包括上下文交互助手、根据用户或用户组定制。
进一步地,所述自组织映射SOM基于人工神经元网格,所述自组织映射SOM的权重不断适应相应训练集中输入中呈现的向量,能够生成2D或3D地图,每个人工神经元在代表输出地图上都有一个精确的位置,所述2D或3D地图参与了一个称为赢家通吃的过程,在此过程结束时,具有最接近特定输入的权重向量的节点被宣布为获胜者,同时更新相同的权重以使所述获胜者更接近输入向量;每个节点都有许多相邻的节点,当一个节点赢得比赛时,即使相邻节点的权重也被修改,根据一般规则,一个节点离获胜节点越远,其权重的变化就越少;对训练集的每个向量重复该过程,持续多个循环,不同的投入会产生不同的赢家,以这种方式映射成功地将输出节点与整个输入数据集中的组或重复模式相关联。
进一步地,所述神经网络模块采用的神经网络算法包括监督学习算法、无监督学习算法以及强化学习算法;
所述监督学习算法有一个训练集,包含输入的典型示例和相关的相应输出,允许网络学习推断它们之间的关系,网络通过合适的算法(通常是监督学习算法的反向传播)进行训练,该算法使用这些数据来修改权重和其他网络参数,从而最大限度地减少与训练集,如果训练成功,网络将学会识别将输入变量与输出绑定的未知关系,并且即使输出不是先验已知的,也能够进行预测,换句话说,所述监督学习的最终目标是预测每个有效输入值的输出值,仅基于有限数量的对应示例(即输入-输出值对),为此,网络必须具备足够的泛化能力;
所述无监督学习算法为基于修改网络权重的训练算法,这些网络权重专门针对仅包含输入变量的数据集,该算法通常使用拓扑或概率方法尝试对输入数据进行分组并识别代表相同数据的适当集群;所述无监督学习算法也用于开发数据压缩技术;
所述强化学习算法旨在识别操作方式,从对外部环境的观察过程开始;每一个动作都会对环境产生影响,环境会产生反馈,在学习过程中指导算法,通过假设了一个具有感知能力的代理,它可以探索发生一系列动作的环境,作为回应,环境会根据情况提供激励或抑制,所述强化学习算法试图最终确定旨在最大化代理在探索问题期间获得的累积激励的策略;所述强化学习算法与所述监督学习算法不同,因为已知示例的输入-输出对从未出现过,并且没有明确纠正次优动作,所述强化学习算法还专注于在线服务,涉及平衡未知情况和现有知识的利用。
进一步地,所述导入模块支持的文件格式有:Microsoft Word(doc)、MicrosoftExcel(xls,xlt)、Microsoft Powerpoint(pps、ppt)、Microsoft OpenXml(docx、docm、dotx、dotm、pptx、pptm、potx、potm、ppsx、ppsm、xlsx、xlsm、xltx、xltm)、PDF、RTF、Openoffice(odt、ott、sxw、stw、sdw、ods、ots、sxc、stc、sdc、odp、otp、sxi、sti、sxd、sda、sdd、odg)、XML、文本文件、掌上文件、WordPerfect文档、电邮、HTML/XML、图像(BMP、BUFR、CUR、DCX、EPS、FITS、FLI、FLC、FPX、GBR、GD、GIF、GRIB、ICO、IM、IMT、JPEG、MCIDAS、MIC、MSP、PCD、PCX、PNG、PPM、PSD、SGI、TGA、TIFF、WAL,、WMF、XBM、XPM)、压缩文档(ZIP、GZIP、BZIP2、TAR、7z、ARJ、CAB、CHM、CPIO、DEB、DMG、HFS、ISO、LZH、LZMA、MSI、NSIS、RAR、RPM、UDF、WIM、XAR、Z);
所述导入模块通过数据库连接器,能够提取信息的数据库有:SQL服务器、Oracle、PostgreSQL、MySQL、DBA2。
与现有技术相比,本发明的有益效果在于,本发明提供的认知物联网大数据技术平台,解决了现有大数据技术从认知物联网获得的异构数据存在的存储、分析和提取信息困难的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的认知物联网大数据技术平台的系统结构图。
图2是本发明实施例提供的认知物联网大数据技术平台的核心模块结构图。
图3是本发明实施例提供的认知物联网大数据技术平台的核心扩展模块结构图。
图4是本发明实施例提供的认知物联网大数据技术平台的文本处理模块结构图。
图5是本发明实施例提供的认知物联网大数据技术平台的信号/数据处理模块结构图。
图6是本发明实施例提供的认知物联网大数据技术平台的定制技术模块结构图。
图7是本发明实施例提供的认知物联网大数据技术平台的接口功能模块结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
以下结合附图与具体实施例,对本发明的技术方案做详细的说明。
参照图1,本发明提供的认知物联网大数据技术平台1,包括核心模块11、核心扩展模块12、文本处理模块13、信号/数据处理模块14、定制技术模块15以及接口功能模块16,核心模块11、核心扩展模块12、文本处理模块13、信号/数据处理模块14、定制技术模块15以及接口功能模块16之间通过计算机应用程序接口相连并传送数据;
核心模块11用于实现认知物联网大数据技术平台1的核心功能,核心扩展模块12用于实现认知物联网大数据技术平台1的核心扩展功能,文本处理模块13用于实现认知物联网大数据技术平台1的文本处理功能,信号/数据处理模块14用于实现认知物联网大数据技术平台1的高级数据分析功能,定制技术模块15用于实现认知物联网大数据技术平台1的特定功能,接口功能模块16用于实现认知物联网大数据技术平台1的接口管理功能;
核心功能包括分布式消息处理功能、自动获取网站内容功能、管理工作流程功能、文本特征提取功能、管理地理定位信息功能、索引和搜索功能、文本修改功能、多种搜索引擎全局控制机制功能、文档预览功能、提取文档结构功能、摄取数据库的输入数据功能、高级搜索功能、各种数据源连接器功能、查询管理功能、自然语言处理功能、机器学习功能、逻辑理解功能;
核心扩展功能包括管理用户接口功能、域控制功能、支持LDAP认证系统功能、支持从系统数据库中提取数据功能、脚本管理功能、支持Web分布式创作和版本控制协议功能、支持应用程序之间的互操作性功能、与第三方硬件系统接口功能、许可证分配功能、处理备份策略管理流程中的操作工作流功能;
文本处理功能包括文件及数据库信息导入系统功能、文档拆分功能、文本特征提取功能、建立文本索引功能、文本搜索功能、全文搜索功能、跨语言管理功能、文档分类功能、数据的爬取存储和管理功能、管理与一个或多个文档相关的逻辑细化流程功能、网页的可视化动态引擎功能、文档预览功能、演示报告生成功能、存储数据操作细化管理功能、管理系统通知功能、管理地理本地化数据功能、管理认证电子邮件系统功能、识别和提取扫描仪扫描的文档内容功能、协作编写文档功能、处理与不同知识领域相关的词汇功能、检查文档合规性功能、阅读具有非标准结构和字符的加密pdf功能、从文本中提取概念功能、管理文档版本功能;
高级数据分析功能包括从软件总线获取数据功能,从硬件设备下载数据功能,分析和发现重复模式、数据之间关系功能,高级统计功能,未来事件预测功能,评估和预测一系列事件动态功能,评估两个随机变量之间的关系功能,推导未来行为功能,检测、识别和突出异构数据时间序列中的异常情况功能,预定义规则的应用/验证功能,人群信息进行收集和汇总功能,搜索和分类从内部和外部来源检索的信息的配置文件功能,审查中的信息集分析功能,生成绩效全局指标功能,收敛到良好解决方案功能,对公司的运营流程偏差进行因果分析功能,跟踪所考虑的数量的未来行为功能,重新排列数据库中存在的数据结构功能,主观信息分析功能,海量数据的数据聚类功能;
特定功能包括定义操作程序的详尽监控过程功能,获取准确的研究信息功能,跟踪单个用户的行为和动作功能,预定义工作流功能,优化后的参数与流程情况比较功能,人与人之间的关系网络建模功能,对类似的个人进行分组功能,改进Wiki内容导航功能,调查功能,项目多重管理功能,日历管理和时间事件功能,高级日志分析功能,邮件系统管理功能,电子邮件附件管理功能,群发邮件管理功能,工单管理功能,XML提要管理功能;
接口管理功能包括移动设备界面管理功能,图形直观方式显示相关性功能,同步通信(即时消息)和异步通信(私人消息)支持功能,html代码验证功能,启用应用程序中各种实体的注释支持功能,指导用户使用系统功能。
上述技术方案提供的认知物联网大数据技术平台1,解决了现有大数据技术从认知物联网获得的异构数据存在的存储、分析和提取信息困难的问题。
作为本发明的一种实施方式,参照图2,核心模块11包括Celery模块1101、爬虫模块1102、工作流模块1103、特征提取器1104、地理数据模块1105、索引器1106、优化模块1107、元搜索模块1108、预览模块1109、拆分器1110、数据处理模块1111、搜索引擎1112、数据整合模块1113、查询管理模块1114、自然语言处理模块1115、机器学习模块1116、意义引擎1117;Celery模块1101、爬虫模块1102、工作流模块1103、特征提取器1104、地理数据模块1105、索引器1106、优化模块1107、元搜索模块1108、预览模块1109、拆分器1110、数据处理模块1111、搜索引擎1112、数据整合模块1113、查询管理模块1114、自然语言处理模块1115、机器学习模块1116以及意义引擎1117之间通过计算机应用程序接口相连并传送数据;
Celery模块1101用于提供异步任务和作业队列以实现分布式消息处理功能,支持计划和实时操作,使用基于Python的网络库Gevent在单节点和多节点上执行并发执行,能够在同步模式和异步模式下执行任务;
爬虫模块1102用于从互联网爬取网站以实现自动获取网站内容功能,与HTML模块集成以实现了解和探索页面模板功能、卷筒式自动提取功能、HTML解释及文本提取功能;
工作流模块1103为基于BPMN2.0标准的工作流程图和工作流程规范,以实现管理工作流程功能;
特征提取器1104用于从文本中提取IMEI代码、IP地址、电话号码、地理位置数据、信用卡号,以实现文本特征提取功能;
地理数据模块1105用于根据标准拓补以及与标准拓补相关的数据以实现管理地理定位信息功能,通过GoogleMaps插件和JQuery传单插件可视化表示地理数据,允许管理本地化地理信息,地理空间分析IP地址能够映射到地理位置,能够识别地理距离、地理范围、地理边界框或地理多边形中的值;
索引器1106用于提供索引和搜索功能;
优化模块1107用于提供大小写修改、行距裁剪、字段的合并和拆分、自定义脚本,以实现文本修改功能;
元搜索模块1108作为爬虫模块1102的补充,用于从互联网搜索数据,通过扩展爬虫系统以在爬虫系统上能够使用多种搜索引擎1112执行查询,能够从查询结果中收集结果,提供支持以调用搜索引擎1112提供的Web服务或模拟用户导航,以实现多种搜索引擎全局控制机制功能;
预览模块1109用于提供HTML、PDF、图像以及视频的预览,以实现文档预览功能;
拆分器1110用于将PDF或文档拆分为多个独立的部分,并允许用户单独查看拆分的独立的部分,以实现提取文档结构功能;
数据处理模块1111能够处理各种数据格式,以实现摄取数据库的输入数据功能;
搜索引擎1112用于提供高级搜索功能,包括特定语义和上文、经过训练的神经网络、统计、定义模糊度的搜索组合,智能特征提取搜索,多国语言搜索,词性标记搜索,支持文档拆分搜索和上下文分析搜索;
数据整合模块1113用于为各种数据源提供各种数据源连接器功能,通过使用反射来提取表和关系,以自动创建模式并从外部数据库中提取数据,各种数据源包括关系数据库、NoSQL数据库、消息队列、日志文件、来自互联网和维基百科网站的数据、Hadoop应用程序、文件系统、Microsoft Office文档、PDF、OpenXML格式、OpenOffice文档、XML、图片、导入数据库的存档文件;
查询管理模块1114通过将查询执行分布在集群的各个节点上,提供首选项以在保存数据的分片上执行查询,从而实现查询管理功能,查询管理模块1114提供的查询语法包括布尔值、模糊查询、基于Gremlin的图形查询、DisMax、GeoReferential以及脚本;
自然语言处理模块1115通过内置的NLP模块提供的自然分析和理解语言的方法,包括上下文自然语言处理和先进的神经用户行为分析,从自然语言中提取明确而有意义的信息,以实现自然语言处理功能;上下文自然语言处理具有从原始文本中理解和识别概念的能力,能够理解和分类表征查询的主题;先进的神经用户行为分析能够根据用户情况调整答案;NLP模块建立在神经模型、模糊模型、语义模型以及统计模型的基础之上,包括最大熵和推理算法;
机器学习模块1116用于提供机器学习功能,允许学习实体和关系之间存在学习关系而无需进行显式编程,学习过程受内容和对象关系驱动,并且考虑了行为和行为的历史分析,学习过程包括概念分析、与最终用户的交互,与最终用户的交互包括强制学习、通过示例学习、通过交互学习;
意义引擎1117用于通过理解分析信息的含义,以实现逻辑理解功能;理解分析信息的过程,包括概念化以确定所分析信息的模式和特征,情境化以识别信息的情境并映射特征,含义以对信息进行完整的描述。
作为本发明的一种实施方式,参照图3,核心扩展模块12包括管理用户接口模块1201、域控制模块1202、LDAP模块1203、LotusDomino模块1204、Fabric模块1205、WEBDAV模块1206、Web服务模块1207、适配连接器1208、证书模块1209以及海量存储存档器1210,管理用户接口模块1201、域控制模块1202、LDAP模块1203、LotusDomino模块1204、Fabric模块1205、WEBDAV模块1206、Web服务模块1207、适配连接器1208、证书模块1209以及海量存储存档器1210之间通过计算机应用程序接口相连并传送数据;
管理用户接口模块1201通过与市场上主流浏览器兼容的Web用户界面来管理与单个模块的管理相关的参数,以实现管理用户接口功能,参数通过分层和规范化的结构表示,管理用户接口功能支持网页界面、桌面、移动设备、功能配置器/系统参数、多租户逻辑;
域控制模块1202通过在单个网站上将系统的单个功能一对一映射,以保证唯一的关联用户功能,从而实现域控制功能;域控制功能能够从网站使用配置管理,支持多租户逻辑;
LDAP模块1203用于提供支持LDAP认证系统功能,LDAP模块1203的功能包括目录和已定义方案的管理、与开放式LDAP集成、支持openssl;
LotusDomino模块1204为LotusDomino模块1204IBM系统的集成模块,以实现支持从系统数据库中提取数据功能,LotusDomino模块1204的功能包括与数据库和视图直接连接、数据集成和规范化;
Fabric模块1205用于提供脚本管理功能,通过使用每个SSH的终端来管理脚本,以实现系统分布式部署和配置的自动化;Fabric模块1205的功能包括使用Python编写脚本,支持SSH安全连接,多种环境管理,分布式和并行任务管理;
WEBDAV模块1206通过公开HTTP协议对文件档案的访问,以提供支持Web分布式创作和版本控制协议功能;WEBDAV模块1206还提供了阻塞正在写入的资源、管理并发写入的可能性,WEBDAV模块1206还提供了RFC2518和RFC4918中包含的功能和操作支持;
Web服务模块1207通过使用Web服务的通信机制,以及通过公开套件的所有模块的特定功能以实现支持应用程序之间的互操作性功能;Web服务模块1207支持SOAP标准、REST标准以及密码学;
适配连接器1208通过标准硬件接口的专有公开协议信息,提供与第三方硬件系统接口功能,支持通过串口、USB、以太网硬件进行通讯,通过解析器编辑的Web界面引导生成;
证书模块1209用于实现许可证分配功能,包括时间许可、软件和系统许可证的控制、多租户架构中的许可证控制;
海量存储存档器1210用于实现处理备份策略管理流程中的操作工作流功能,海量存储存档器1210在存档方面与当前的存档方法保持一致,包括备份工作流中映射的策略、程序的准确性控制。
作为本发明的一种实施方式,参照图4,文本处理模块13包括导入模块1301、分配器1302、文本特征提取模块1303、文本索引器1304、文本搜索器1305、语义搜索模块1306、语言管理模块1307、分类模块1308、Spider模块1309、文档工作流引擎1310、演示引擎1311、文本预览模块1312、报告引擎1313、历史/时间线模块1314、管家模块1315、地理数据/地理名称模块1316、电邮认证模块1317、OCR模块1318、合作写作模块1319、本体模块1320、一致性检查器1321、高级PDF处理器1322、极端内容处理器1323以及版本控制器1324,管理用户接口模块1201、域控制模块1202、LDAP模块1203、LotusDomino模块1204、Fabric模块1205、WEBDAV模块1206、Web服务模块1207、适配连接器1208、证书模块1209以及海量存储存档器1210之间通过计算机应用程序接口相连并传送数据;
导入模块1301用于实现文件及数据库信息导入系统功能,导入模块1301允许将有关文件的信息上传至系统,与数据库和文件系统连接以恢复需要储存的信息,信息是通过专有协议发布的文档、日志或数据;
分配器1302用于根据预定义的逻辑通过导入模块1301拆分导入的文档,从而实现文档拆分功能;分配器1302核实文件结构之后,能够按照章、段、小段或按页进行拆分;分配器1302对文档的拆分功能取决于文档的原始格式,分配器1302对于拆分的单独部分保存文档中存在的层次关系,允许重建及可导航性;分配器1302还可以通过专有试探法拆分管理非格式化文档;
文本特征提取模块1303用于提供文本特征提取功能,文本特征提取模块1303允许提取相关数据并呈现在系统上传的文档中;文本特征提取模块1303能够提取的特征包括税号、信用卡代码、驾驶执照追踪号码、电子邮件地址、身份证追踪号码、护照追踪号码、Imei代码、Imsi代码、IP地址、Mac地址、网址、车牌、摩托车牌照、日历日期、姓名、增值税号、电话号码、街道和地址、地理定位数据,地理定位数据可配置为国家和居民人数;
文本索引器1304用于构建链接到上传信息的一系列索引,以实现建立文本索引功能,文本索引器1304为分布式和冗余的结构以保证最大可靠性,文本索引器1304的索引基本元素包括用于索引系统使用的引擎、保存索引信息的路径、参数配置、定义数据索引规则的字段、数据过滤器;
文本搜索器1305用于提供文本搜索功能,文本搜索器1305能够在使用导入模块1301上传的文档中进行全文检索和语义检索;文本搜索器1305对应的搜索文本可由一个或多个词组成,支持布尔运算符和、或、非,通过使用嵌套括号支持运算符的优先级控制,过滤与文档相关的元数据,支持字段修饰符,特别支持以下搜索:“all”搜索所有词条的对应关系;“any”搜索一个或多个术语的对应关系;“startswith”搜索词首部分的对应关系;“endswith”搜索词条最后部分的对应关系;“regex”使用正则表达式运算符,区分大小写;“iregex”使用正则表达式运算符,不区分大小写;“exact”搜索词条的精确对应关系,区分大小写;“iexact”搜索词条的精确对应关系,不区分大小写;“包含”搜索包含搜索文本的所有术语;大于x的“gt”数值运算符;“gte”数值运算符大于等于x;小于x的“lt”数值运算符;“lte”数值运算符小于或等于x;介于x和y之间的数值运算符;“in”数值运算符从值列表开始搜索对应关系;
语义搜索模块1306通过引入“信息的相关性”概念,克服并扩展全文搜索的“对应性”概念,以实现全文搜索功能;语义搜索模块1306能够同时考虑词的本身含义和词在上下文的含义,语义搜索模块1306还考虑信息的结构并通过使用语义专有词汇表来链接;语义搜索模块1306支持多种语言搜索,语义搜索模块1306还支持字段修饰符,特别支持以下字段搜索功能:“sw/stopwords”可以删除停用词;“loc/locutions”允许使用短语;“syn/synonyms”允许使用同义词;“exp/expansion”允许使用名称和动词的扩展;“nlp”启用自然语言的所有功能;“lang”强制语言使用;“hypernym”允许使用上位词;“antonym”允许使用反义词;“similar”能够阐述相似的概念;语义搜索模块1306还支持进一步的字段修饰符,允许进一步细化搜索;语义搜索模块1306返回的结果包括文档、在文档中的位置、相似度评分、对已执行查询的引用、摘要、相似文档;语义搜索模块1306从搜索返回的文档数量是可参数化的,搜索能够在系统中并行化,以增加对引入的查询的响应速度;
语言管理模块1307用于管理词汇、识别和处理欧洲语言和亚洲语言,从给定语言的查询开始对多个数据库进行搜索,以实现跨语言管理功能;语言管理模块1307还管理由TNP可信网络平台直接定义和实现的语义网络;语言管理模块1307的功能包括词汇管理、欧洲语言和亚洲语言的管理、跨语言词汇管理、语义网络管理;
分类模块1308通过创建链接到导入文档的信息领域的类别方案,以实现文档分类功能,分类模块1308支持IPTC国际新闻通讯委员会标准的分类方案,用于实现分类模块1308的引擎有贝叶斯、布尔、文档相似度、关键字、概念与类别关联度、统计、SVM或支持向量机,每个引擎以不同的方式工作,并根据需要和应用的知识领域需要做不同的配置,这些引擎可以同时应用,以保证分类的最大精度;
Spider模块1309用于提供数据的爬取存储和管理功能,Spider模块1309包括进程类、管理不同的流程引擎、管理不同的存储支持、管理用于搜索数据预处理和后处理的中间件,进程类用于管理多级队列和要搜索的地址,管理不同的流程引擎用于按目标配置,管理不同的存储支持用于模块上传内容的保存、导入、索引;Spider模块1309能够通过多线程进程对预先选择为目标的url进行下载和分析,这些url是利用适用于http请求的库获取的,这些库不仅允许获取DOM文档对象模型,还允许获取其他信息,例如会话、cookie、标题等,一旦下载了链接的DOM,就会翻译一个中间件,用于提取和调整下一个要搜索的链接,因为通过使用配置阶段选择的正则表达式、过滤器和标签,可以提取它指向的链接(CSS、图像、JS、插入的链接、标签a、框架等),将从这个中间件中提取的链接排列起来,以便进一步分析;提取链接后,答案的对象移动到当前实例进行进一步处理;在这项活动中,通过临时创建的规则,实时进行深入的需求分析、特殊提取、关联、语义分析和其他感兴趣的操作;这些规则是在专用于客户的模块中创建的(如果不是通用的模块),其目的是满足特定的项目要求,Spider模块1309允许下载、解释和分类来自内部和外部来源的信息;内部来源可以是:商业网站、商业维基、商业论坛、商务聊天工具、业务文件系统(内联网),外部来源可以是网站、维基和论坛、Rss和Atom feed、聊天工具;为了克服在网站爬取期间出现的各种问题,Spider模块1309提供了许多功能列表,例如:cookie管理、从浏览器导入cookie、使用robot.txt执行网络礼仪标准、最大跳数的设置、为页面和文档设置“留在此处”、可定制的选择性下载每个类型的文档(仅限ms word)、可自定义的选择性下载每个扩展的文档(仅限doc、xls)、抓取和禁用“死”链接的错误计数、使用用户和密码进行http身份验证、设置下载文件的最大尺寸、设置下载任务的最大维度、设置爬取频率、设置爬取优先级、设置使用频段的百分比、所有链接的强制更新设置、保存页面内容、跳过图像、跳过视频、跳过文件音频、品类管理、使用正则表达式管理爬取限制、绕过绑定的代码模块(例如:防窃电系统、认证系统、抗爬取系统)、RSS提要的管理;通过Spider模块1309的扩展模块允许定义简单的应用程序调用,以满足不同的功能需求,而无需修改爬取本身的代码;扩展模块包括主站点处理模块、爬取启动模块、爬取结束模块、链接爬取开始模块、链接爬取结束模块、文档爬取开始模块、文档爬取结束模块;Spider模块1309能够完成的操作包括Cookie操作、网址操作、文件处理,Cookie操作包括认证、修改、取消,网址操作包括会话数据消除、锚点消除、不必要地址消除、插入地址,文件处理包括添加元数据、文件禁用;
文档工作流引擎1310用于提供管理与一个或多个文档相关的逻辑细化流程功能,文档工作流引擎1310为基于属于BPMN2.0标准的功能元素,使用图形Web编辑器来起草图表流,允许有效地映射文档管理的结构和步骤,精确识别与文档相关的版本、个人责任和修改操作的验证时刻,还允许映射和保留与文档相关的业务流程,将其标准化为通用标准;文档工作流引擎1310的元素包括文档、操作、网关、事件,文档为系统中需要管理的文档,操作为预定义的需要对文档执行的操作,网关用于检查操作之间的流程,支持布尔逻辑AND ORNOT,能够插入预定义控件,事件能够插入预定义事件,生成的事件包括来自系统的事件(例如保存的文件、截止日期等)、细化开始序列的唯一标识符、细化停止序列的唯一标识符;文档工作流引擎1310管理的操作包括修订分配、审批分配、在文件系统中的搜索、电子邮件的发送、前端Web界面上的事件通知;文档工作流引擎1310管理的网关包括文件状态控制、在元数据或文档中定义的状态、修订的执行、审批的执行;文档工作流引擎1310管理的事件包括任务产生的信号、截止日期、系统事件;
演示引擎1311用于提供网页的可视化动态引擎功能,演示引擎1311的可视化基于基本模板,基本模板根据人体工程学和技术界面需求进行预定义、可扩展和可定制,允许实现具有可重用和可定制元素的界面;演示引擎1311支持管理的动态内容包括分层模板、应用界面结构的可重用性、HTML5,演示引擎1311支持管理的静态内容包括格式规范化、性能的可扩展性;
文本预览模块1312用于提供文档预览功能或文档的其中一部分的预览的创建功能,文本预览模块1312是以最常见的标准提供系统中包含的文档,而无需以原始格式下载和打开它们;文本预览模块1312用于打开文档的特定软件能够根据需要选择;文本预览模块1312预览的生成以同步方式进行,不是在用户请求期间生成,而是在数据库中输入文档时立即处理,类似功能的引入允许在不同类型的设备和格式上立即获得信息;文本预览模块1312还用于管理文档的缩略图,文本预览模块1312的功能包括生成文档预览、基于编程过滤器在部分文本的预览中突出显示、生成文档缩略图、预览和缩略图的异步生成;
报告引擎1313用于提供演示报告生成功能,报告引擎1313能够基于预定义和可重复使用的模板生成报告,还支持转换格式以在移动设备上显示信息,报告的生成和显示也能够在推送模式下受到系统事件到期的影响;报告引擎1313能够在系统从导入的文档到系统日志的每个部分生成报告,报告引擎1313的功能包括生成关于系统元素的报告、生成文件状态报告、管理日志推送通知、支持异构设备上的可视化;
历史/时间线模块1314用于实现存储数据操作细化管理功能,历史/时间线模块1314能够显示对系统数据库中存储的数据进行操作的时间序列,使得信息使用的可塑性成为可能,历史/时间线模块1314通过时间序列对数据或文件执行的操作序列、文件发布日期的分析、来自对受监控设备的日志操作的采样的数据序列相关联;历史/时间线模块1314的功能包括存储对文档文本的修改、存储链接到文档的事件、存储与文档相关的详细说明、存储对文档的访问、存储来自受监控设备的数据序列、单个文档的时间线管理;
管家模块1315用于提供管理系统通知功能,管家模块1315能够将系统通知链接到系统事件、文档状态以及对数据进行操作的结果,系统通知能够发送给单个用户或组,管家模块1315通过利用在单个模块生成的事件上定义调度的特性以实现可定制;
地理数据/地理名称模块1316通过基于标准拓扑(城市、街道、名胜古迹)和与其链接的附加数据来实现管理地理本地化数据功能,将地理领域中阐述的信息语境化;地理数据/地理名称模块1316还链接了由文本预览模块1312设计的表示系统,用于数据的图形表示;地理数据/地理名称模块1316还包含ip映射地理位置的信息;地理数据/地理名称模块1316支持将地理信息作为插件插入到网页的表示系统中,以实现可视化的图形化管理表示;地理数据/地理名称模块1316包括的附件信息有地理坐标、人口、国家、货币、语言、不同语言的翻译、时区、邮政编码、标签;
电邮认证模块1317通过使用可靠来源颁发的数字证书,以实现管理认证电子邮件系统功能;电邮认证模块1317向发件人提供具有法律价值的电子文档,证明电子邮件的发送和交付数字文档,证明发送和交付意味着向发件人提供收据,该收据代表已发生的消息发送和可能的附加文件的法律证据,同样,当消息到达收件人时,管理员发送已发生或失败传递的回执,并带有精确的时间指示;如果发件人丢失了收据,所进行的操作的数字跟踪,依法保存30个月,允许以相同的法律价值复制收据本身;电邮认证模块1317还包括电子邮件加密的支持模块;电邮认证模块1317的功能包括管理发送和接收经过认证的可靠电子邮件的报告、密码管理;
OCR模块1318用于导入文档图像的扫描仪的管理,以实现识别和提取扫描仪扫描的文档内容功能;OCR模块1318通过一系列的OCR算法对通过扫描仪导入的文档图像进行处理,以提取文档的文本内容和图形内容;OCR模块1318通过连接的图像分类器识别图形内容中的相似图像和对象;OCR模块1318的功能包括OCR,管理图像、文本的分割,图像制作;图像制作包括基本过滤器集、搜索相似图像、在图像中搜索对象;
合作写作模块1319通过使用通用和共享的编辑器来实现协作编写文档功能,合作写作模块1319将文本书写传送到订阅公共区域的一组用户,文档的编写是一个递归操作,其中每个用户都被要求公开其想法,评论其他人的想法;合作写作模块1319还支持共享白板来起草计划;合作写作模块1319能够从Microsoft office和OpenOffice中导入文档,并作为后续修改的基础;合作写作模块1319的功能包括管理员面板的管理、用户注册面板的管理、从办公套件导入文件、共享编辑器所见即所得、评论管理、插入图像、插入链接、共享白板、基本的图形组件(如线条、连接器、二维形状);
本体模块1320用于提供处理与不同知识领域相关的词汇功能,本体模块1320能够根据需要在系统中已有的词汇和可定义的词汇之间进行选择,通过语义网络表示词汇表,用逻辑形式描述复杂的场景;本体模块1320使用外部资源自动构建,然后由本领域专家参与进行细化;本体模块1320通过利用本体中的形式化知识,能够对数据应用推理算法和一致性控制,以确保丰富和精确的搜索结果;本体模块1320的互操作性和重用可能性由以下标准格式模块支持提供:RDF架构(RDFS),本体网络语言(OWL)和语义网络规则语言(SWRL),RDF(尤其是RDF/XML、RDF/JSON、N-Triples、N-Quadruples);本体模块1320的功能包括现有的本体集合、用于创建或修改本体的编辑器、根据标准格式从网络导入本体、根据需要定义复杂性的推理引擎;
一致性检查器1321用于根据预定义的结构在包含的数据和图形/逻辑布局方面检查文档合规性,以实现检查文档合规性功能;一致性检查器1321只允许导入符合特定格式的文档,并指示拒绝导入的文档违反了哪些规则;一致性检查器1321通过使用现有的标准模型响应常见的验证案例,一致性检查器1321还能够使用基于灵活性规则的高度可定制的编辑器,一致性检查器1321的功能包括自动分析文档格式、现有的不同的文档模型、通过合规性规则创建新模板;
高级PDF处理器1322通过识别并重构布局,提供文档索引的构建,提取图片、表格以进行微内容的高级管理,以实现阅读具有非标准结构和字符的加密pdf功能;高级PDF处理器1322的功能包括加密pdf的管理,识别文档布局,提取复杂的内容(如表格、图像和微内容);
极端内容处理器1323通过应用术语的相关算法、支持向量分类器和聚类算法,以实现从文本中提取概念功能;这些算法的参数配置是完全可定制的;极端内容处理器1323的功能包括从文本中提取和关联概念,自定义算法参数;
版本控制器1324通过管理界面根据预定义或用户可定义的框架来管理加载到系统中的文档版本,以实现管理文档版本功能;版本控制器1324的功能包括编码模式编辑器、默认编码。
作为本发明的一种实施方式,参照图5,信号/数据处理模块14包括代理模块1401、探查模块1402、神经网络模块1403、模式匹配模块1404、集群/聚合模块1405、模式异常检测模块1406、统计模块1407、预测惯性引擎1408、分析引擎1409、相关器1410、时间序列分析模块1411、互相关器1412、规则匹配模块1413、描述性统计模块1414、分析器1415、鱼骨分析模块1416、KPI模块1417、What-if模块1418、Tableau模块1419、趋势分析模块1420、多维OLAP模块1421、主观分析模块1422、高级Web集群/提取模块1423,代理模块1401、探查模块1402、神经网络模块1403、模式匹配模块1404、集群/聚合模块1405、模式异常检测模块1406、统计模块1407、预测惯性引擎1408、分析引擎1409、相关器1410、时间序列分析模块1411、互相关器1412、规则匹配模块1413、描述性统计模块1414、分析器1415、鱼骨分析模块1416、KPI模块1417、What-if模块1418、Tableau模块1419、趋势分析模块1420、多维OLAP模块1421、主观分析模块1422以及高级Web集群/提取模块1423之间通过计算机应用程序接口相连并传送数据;
代理模块1401能够从软件总线下载数据,并将数据直接插入到数据库中,以实现从软件总线获取数据功能;代理模块1401能够识别常见的通信协议或在规则已知时适应新的协议,代理模块1401的功能包括从软件总线下载数据、可配置的协议解析器、推/拉下载、时间下载、并行下载;
探查模块1402用于提供从硬件设备下载数据功能,并将数据直接插入到数据库中;探查模块1402能够识别常见的通信协议或在规则已知时适应新的协议,探查模块1402的功能包括从总线/设备下载数据、可配置的协议解析器、推/拉下载、时间下载、并行下载;
神经网络模块1403结合了神经网络算法中的编程功能,以实现分析和发现重复模式、数据之间关系功能;神经网络算法是具有特定属性的计算模型,能够适应、从经验中学习、概括、聚类和组织知识;神经网络模块1403的功能包括编辑器模型、监督学习、无监督学习、强化学习;
模式匹配模块1404用于神经网络模块1403的特定化,模式匹配模块1404检查数据序列中是否存在默认模式;经过训练的神经网络能够识别模式以及模式的类似变体,模式匹配模块1404只能在定义的时间窗口内识别模式;模式匹配模块1404的功能包括模式规划/标准化、模式识别、识别模型的仿真/检查;
集群/聚合模块1405用于神经网络模块1403的特定化,通过自组织映射SOM实现分类问题由特定类型的网络解决,自组织映射SOM的学习算法为无监督学习的一种表述;集群/聚合模块1405的功能包括分类、基于规则的聚合、自动聚合、模型仿真/检查;
模式异常检测模块1406用于神经网络模块1403的特定化,具有实现识别偏离约定和定义模型的情况的能力;模式异常检测模块1406通过将相关标准应用于反向传播神经网络的输出数据,具有扩展功能的同时并具有考虑多个系列数据的功能;模式异常检测模块1406在默认数据的时间窗口上运行,模式异常检测模块1406还能够检测误报;模式异常检测模块1406的功能包括异常识别、模型仿真/检查;
统计模块1407包含用于研究从经典和高级统计中的得出的定性和定量数据的算法系列,以实现高级统计功能;算法系列包括
描述性统计,描述性统计旨在通过其图形工具(条形图、饼图、直方图、箱线图)和指标(统计指标、位置指标作为平均值、变异指标作为方差和浓度、相关性指标等)综合数据,描述观察数据的突出方面,塑造统计内容;
推论统计,推论统计的目的是做出陈述,错误的可能性是可控的;推论统计是关于观察到的现象的理论性质(概率定律),这种性质的知识将允许进一步进行预测,推论统计与概率论密切相关,最重要的是估计理论(点估计和区间估计)和假设检验;
探索性统计,探索性统计通过综合方法对实验产生的数据进行研究,以便对所研究的现象所涉及的概率定律提出假设;探索性统计采用数据挖掘实现,数据挖掘是一个过程,旨在发现相关性、关系、新的和有意义的趋势,筛选存储在存储库中的大量数据,使用关系识别技术以及统计和数学技术;数据挖掘采用以下技术:
分类,使用成员类别已知的个人信息确定将个人分配到已知类别之一的规则或标准;
分割,用于识别先验未知的子组或类,分析数据以将相似的个体分租;
预测,用于预测先前未分析过的个体的目标变量的值;
关联分析,用于识别更频繁、同时或逐步发生的事件,能够识别两个或多个现象或行为之间的密切关系,提取有关解释现象未来的依赖关系或关系的信息,定义预测规则;
预测惯性引擎1408通过使用源自经典统计学、数据挖掘和博弈论的一套技术,分析当前和历史事实,以实现未来事件预测功能;预测惯性引擎1408通过更多因素捕捉关系,以定义与特定条件集相关的潜在风险级别,从而指导决策者;预测惯性引擎1408的功能包括历史系列分析、事件生成、预测、关系分析;
分析引擎1409为基于一个现实模型,允许在分析师或用户强加的条件下评估和预测一系列事件动态,以实现评估和预测一系列事件动态功能;分析引擎1409嵌入仿真系统,分析引擎1409定义为在评估仿真系统中发生的一组过程,这些过程允许理解仿真系统的工作逻辑;分析引擎1409的功能包括编辑器中模型的分析和实现、仿真、仿真模型的验证;
相关器1410通过使得第一个变量的每个值都以特定的规律与第二个变量的值相匹配,以实现评估两个随机变量之间的关系功能;两个随机变量之间的关系不一定是因果关系,而只是一个变量随另一个变量而变化的趋势,有时变量值取决于变化,有时它们是共同的,有时它们是相互依赖的,比较仅发生在通过逻辑链接的变量之间;两个变量之间的相关程度用相关指数表示,这些假设值介于负一(当所讨论的变量呈负相关时)和单位(当存在绝对相关性时,变量的变化对应于严格依赖于其他变量的变化),相关指数为零表示不存在相关性;相关器1410的功能包括变量相关性、事件生成;
时间序列分析模块1411通过定期分析时间序列数据,寻找数据序列中的内部和公共顺序,应用线性回归的方法从一组过去的行为中推导出未来的行为,以实现推导未来行为功能;时间序列分析模块1411能够检测数据中的线性和混沌行为,能够进行基于频域和基于时域的分析,能够定期分析时间序列数据,寻找数据序列中的内部和公共顺序,能够对数据的未来提出假设;时间序列分析模块1411的功能包括数据的时间分析、未来的可预测性、异常或潜在异常情况的检测;
互相关器1412用于测量两个或多个信号或幅度同步的程度,分析第一组与第二组在时间上错位的数据集之间的相似度,或测量错位的程度,以实现检测、识别和突出异构数据时间序列中的异常情况功能;互相关器1412的功能包括通过应用标准运算符进行互相关、异常情况的识别、操作系统验证、验证应用于数据时间序列的假设或规则;
规则匹配模块1413用于检查规则是否得到遵守,能够并行检查规则,返回不合规状态,以实现预定义规则的应用/验证功能;
描述性统计模块1414通过收集和分析与特定对象组相关的数据的方法,得出结论并进行预测,以实现人群信息进行收集和汇总功能;描述性统计模块1414以被研究人群信息的数据收集、分类和汇总为标准,对人群信息进行收集和汇总的指标族包括
位置指数(平均值、中值、众数等),
离散指数,即变异性(方差、标准差、四分位距等),
形状指数(对称性、峰度等);
描述性统计模块1414根据对样本的观察,可以得出整个总体的结论;除了随机引起并因此被定义取消的测量误差,描述性统计模块1414获得的结果可以被定义为确定的;描述性统计模块1414能够有条不紊地组织、总结和呈现数据、合成数据;描述性统计模块1414包括位置索引支持、分散指数支持、形状索引支持;
分析器1415通过生成与分类信息相关联的过滤器、规则和通知事件,配置分析并应用在多个源上并行运行,通过比较结果来验证分析,以实现搜索和分类从内部和外部来源检索的信息的配置文件功能;分析器1415的功能包括配置文件的配置、分类器和过滤器的配置、在多个源上并行执行、将配置文件同时应用于多个源的差异突出显示引擎;
鱼骨分析模块1416通过使用鱼骨法的故障原因分析以实现审查中的信息集分析功能,鱼骨分析模块1416的功能包括原因识别、效果识别、关系的可视化表示;
KPI模块1417通过计算监控业务流程效率的指标集以实现生成绩效全局指标功能;KPI模块1417提供了一组标准指标,能够自定义现有指标并定义新指标,KPI模块1417能够管理与考虑中的指标相关联的编程阈值,并在超出之前设置的阈值时生成通知,KPI模块1417能够关联一个或多个指标以定义复杂的控制逻辑;KPI模块1417的功能包括标准指标、可定制的指标、阈值管理和事件生成、指标相关性、复杂的控制逻辑管理;
What-if模块1418通过定义应用于业务流程的参数模型,改变输入变量值来计算相关的“场景”,分析有助于观察输入变量之间的依赖关系并评估可能的选项,以实现收敛到良好解决方案功能;What-if模块1418的模型通过采用反馈机制来表达,将输出变量的计算值与输入变量相关联,实现有助于收敛到良好解决方案的记忆机制;What-if模块1418能够生成可与工作流相关联的可视化格式报告;What-if模块1418的功能包括输入变量参数化、将函数分配给输入变量、反馈、情景计算、可视化报告管理;
Tableau模块1419通过与概要模式中定义的偏差相比,生成平衡计分卡,以实现对公司的运营流程偏差进行因果分析功能;Tableau模块1419生成的指标的数量和类型是完全可配置的,Tableau模块1419的功能包括编辑器网络信息仪表板;
趋势分析模块1420通过识别一组数据中的递归模式,以实现跟踪所考虑的数量的未来行为功能;趋势分析模块1420的功能包括递归模式分析、事件生成;
多维OLAP模块1421通过OLAP技术执行处理,以实现重新排列数据库中存在的数据结构功能;多维OLAP模块1421的功能包括通过集群定义生成多维数据,支持切片、切块、向下钻取、钻取、钻通操作;
主观分析模块1422通过定义和细化NLP搜索形式,以实现主观信息分析功能;主观分析模块1422能够生成树和图形以可视化概念之间的关系,并定义权重以分析重要性;主观分析模块1422的功能包括基于域从数据中提取重要本体、模式匹配、相关性和分类;
高级Web集群/提取模块1423通过应用数据融合策略,协同应用多种类型的模式匹配和特征提取算法,以实现海量数据的数据聚类功能;高级Web集群/提取模块1423的功能包括应用算法评估、基于定义的模型开发和实施数据融合策略。
作为本发明的一种实施方式,参照图6,定制技术模块15包括过程监控模块1501、过程优化模块1502、响应器1503、跟踪器1504、变更管理模块1505、咨询模块1506、人员模块1507、社区建设模块1508、Wiki增强器1509、调查模块1510、计划管理模块1511、日历模块1512、日志查看器1513、电邮管理模块1514、附件管理模块1515、群发邮管理模块1516、票务模块1517、Feed模块1518,过程监控模块1501、过程优化模块1502、响应器1503、跟踪器1504、变更管理模块1505、咨询模块1506、人员模块1507、社区建设模块1508、Wiki增强器1509、调查模块1510、计划管理模块1511、日历模块1512、日志查看器1513、电邮管理模块1514、附件管理模块1515、群发邮管理模块1516、票务模块1517、Feed模块1518之间通过计算机应用程序接口相连并传送数据;
过程监控模块1501通过细化工作流模块1103,以实现定义操作程序的详尽监控过程功能;过程监控模块1501的功能包括工作流编辑器专业化、程序集合的预先配置;
过程优化模块1502为过程监控模块1501的扩展,将反馈分析技术用于工作流程中描述的参数优化和逻辑序列;过程优化模块1502的功能包括工作流编辑器细化、将运筹学算法应用于流量和路径优化;
响应器1503通过利用搜索引擎1112的功能和一组预定义的模式,基于使用上下文,在信息搜索阶段引导用户,遵循迭代过程,以实现获取准确的研究信息功能;响应器1503从简单或复杂的查询开始,能够提出提高结果质量的想法,如果这些想法不足,则通过查询扩展技术增加,否则,通过构建信息过滤器进行精炼或采用相似结果进行分组;响应器1503的功能包括查询构建、问题的自助/自我总结/更正、通过语义关系查询扩展、通过分面高级过滤、结果聚类;
跟踪器1504用于跟踪在IT系统内操作的单个用户的行为和动作,以实现跟踪单个用户的行为和动作功能;跟踪器1504的功能包括用户分析、规则验证和警报生成;
变更管理模块1505通过控制与公司内部变更管理阶段相关的流程和数据,以实现预定义工作流功能;变更管理模块1505的功能包括流程导入、流程检查;
咨询模块1506通过验证流程和内部文档之间的潜在差异,以实现优化后的参数与流程情况比较功能;咨询模块1506的功能包括工作流导入、工作流分析和比较、法律检查;
人员模块1507通过从系统内部或外部的大量信息(Web资源)中提取信息,以实现人与人之间的关系网络建模功能;人员模块1507能够在专有数据库中自定义或恢复有关人员的信息,专有数据库包含超过200万人的来自百科全书条目;人员模块1507能够处理多种类型的关系,包括显式类型,即声明的两个人之间的关系(例如某种程度的亲属关系)和隐式类型,即系统根据可定制的规则(例如交换的数量)取下的关系;人员模块1507分析通过连接人的信息流、网络内个人的中心度以及所讨论社区的统计特征(例如平均连接数);人员模块1507的功能包括内部或外部人际关系的网络建模、从可定制的规则推断关系、关系的统计分析;
社区建设模块1508能够根据大量特定特征或特征(例如兴趣概况、角色、工作项目等),实现对类似的个人进行分组功能,以通过通知系统鼓励主动联系和团队合作;社区建设模块1508还能够通过对从虚拟社区(例如Facebook、Twitter、网络论坛)获得的数据执行分析并应用社交网络分析算法来建议有效的营销策略;社区建设模块1508的功能包括从Web/Internet通信定义交互社交网络、社区检测;
Wiki增强器1509通过自动或半自动方式丰富具有超文本信息的文本文档的内容,以实现改进Wiki内容导航功能;通过Wiki增强器1509,能够在文档的上下文中查看信息,而不会泄露可能导致从原始上下文转移注意力的细节,并且通过浏览相关链接进行查看;Wiki增强器1509能够添加规则以自动生成文档,也可以让系统根据已经输入的信息自动插入最有趣的链接,能够使用网络上可用的信息,例如维基百科等在线百科全书,在地图服务(例如谷歌地图)或企业网站上进行协调,以丰富文档信息内容;Wiki增强器1509的功能包括丰富文本信息、基于分类规则或全自动的连接发现、内部和外部网络数据集成;
调查模块1510通过协作、半协作、非协作和客观的技术管理以实现调查功能,调查模块1510的调查分析是在行为研究层面以完全透明的方式使用相关日志进行的;调查模块1510的功能包括日志分析,随机调查,合作、半合作、非合作调查,行为研究;
计划管理模块1511通过使用甘特和Pert标准工具的规划支持,以实现项目多重管理功能;计划管理模块1511使用RACI矩阵(各级责任)为人力资源和责任的重新分配提供管理/自动协调功能,计划管理模块1511的功能包括人力资源管理、规划管理、分配给人力资源的工作流管理;
日历模块1512用于支持日历管理和时间事件功能,日历模块1512是一个基本的系统模块,允许管理大量关于时间的案例研究,例如约会管理或企业任务;日历模块1512与推送通知系统完全集成,因此来自系统的通知消息将在最合适的时刻(在特定事件之前、定期、在预定事件发生时)发送或显示,所有时间管理操作都可以通过网络界面或移动设备进行管理;日历模块1512的功能包括可定制事件的管理、按时间顺序组织任务、与推送通知系统集成、多渠道界面(网络和移动);
日志查看器1513通过对数据相关性和互相关性的综合支持,以实现高级日志分析功能;日志查看器1513功能包括导入日志、通过解析器编辑器进行专有格式管理、预过滤;
电邮管理模块1514用于提供邮件系统管理功能,支持IMAP和POP协议,能够用作信息输入系统和信息输出系统,持续控制一个或多个邮箱以供信息管理系统使用;电邮管理模块1514能够将邮件根据内容进行过滤,就好像邮件是普通文档一样,也可以根据邮件的元数据(例如发件人、源主机等)进行过滤;电邮管理模块1514能够使用常见的电子邮件协议定期发送即时报告或信号警报;所有电子邮件渠道特性,包括附件和特殊格式(例如HTML电子邮件)都在输入和输出中处理;电邮管理模块1514的功能包括输入和输出电子邮件协议管理、附件检索和超链接探索、管理高级格式样式(html);
附件管理模块1515为与邮件系统相关的文件解析和管理模块,用于提供电子邮件附件管理功能;附件管理模块1515以受控和非受控的方式自动提供内容的通知、分类和分发,能够与故障单系统集成,验证附件的一致性,通知潜在的不一致/不准确,并及时报告给收件人或发件人;附件管理模块1515的功能包括解析不同编码和格式的附件、文件与其原始源元数据的关联、像普通文件一样进行附件分析和扫描;
群发邮管理模块1516允许在没有任何限制的情况下处理分发列表管理(邮件列表)和大量电子邮件/营销活动,以实现群发邮件管理功能;列表管理可以在手动或自动模式下执行,群发邮管理模块1516使用最先进的社区检测技术,能够从电子邮件交换开始识别对某个主题或论点感兴趣的用户子集;群发邮管理模块1516的功能包括邮件列表管理、用户组自动生成;
票务模块1517允许管理工单生命周期或警告,从工单创建开始,无论是手动还是自动,在发生某些外部事件时,通过用户或权限流程,管理各种状态直到关闭,以实现工单管理功能;票务模块1517还提供了声明对其他工单或其他类型输出(例如用户响应、正在进行的处理结果)的依赖以及与外部系统接口的能力;票务模块1517的功能包括票务系统生命周期管理、票证之间的依赖关系、与外部系统接口;
Feed模块1518用于提供XML提要管理功能,Feed模块1518能够实时监控支持不同数据发布标准的多个机构站点、博客或网络服务的更新,能够组织任何提要编号,将它们定位在可以以自动或手动方式定义的类别系统中;Feed模块1518将提要以集成格式呈现,可以作为正常文档流来滋养系统;Feed模块1518将监控的提要能够用作工作流模块1103的附加信息源;Feed模块1518的功能包括Feed生命周期管理(插入、更新、频率更新、取消),索引(从反馈和研究中提取特征),手动、自动和半自动分类,资源分散和新资源研究,源自动集成和重复删除。
作为本发明的一种实施方式,参照图7,接口功能模块16包括移动设备管理模块1601、图形关系模块1602、合作管理模块1603、W3C验证模块1604、用户/社区墙模块1605、交互式Web助手模块1606,移动设备管理模块1601、图形关系模块1602、合作管理模块1603、W3C验证模块1604、用户/社区墙模块1605、交互式Web助手模块1606之间通过计算机应用程序接口相连并传送数据;
移动设备管理模块1601用于提供移动设备界面管理功能,移动设备管理模块1601检测连接的设备并启用所需的样式表以提供具有最佳用户体验的相同功能集,移动设备管理模块1601还提供了图形轻量版本的加载,以优化带宽使用;移动设备管理模块1601支持界面系统触摸屏;
图形关系模块1602通过Web技术,用可定制的图标表示知识领域中的每个相关实体类型,以实现图形直观方式显示相关性功能;图形关系模块1602以自动方式组织实体,为了使显示更清晰,允许在实体和关系上定义过滤器,并考虑详细信息面板的外观,允许扩展图形表示的摘要信息;图形关系模块1602的功能包括用随机数量的节点表示复杂图、实体的缩放和分组、有机会在对象图中手动移动实体、实体详情视图、自动布局生成、节点和关系上的过滤器定义;
合作管理模块1603简化了用户通过系统的协作和参与,通过未预先确定大小的超链接消息,以实现同步通信(即时消息)和异步通信(私人消息)支持功能;合作管理模块1603的功能包括即时通讯、私信、协作写作;
W3C验证模块1604根据指定法律的可访问性标准和后续修订的html代码,以实现html代码验证功能;W3C验证模块1604的功能包括HTML验证、根据适用法规对网站进行分析和合规性验证;
用户/社区墙模块1605用于提供启用应用程序中各种实体的注释支持功能;系统中的每个元素,包括文档和用户,都可以从用户或软件代理(自动)收集一组消息,这些评论对系统用户可见,并具有促进他们工作的实用程序,但不会改变原始内容;用户/社区墙模块1605的功能包括启用对系统组件的评论;交互式Web助手模块1606能够显示用户手册和导航界面,通过直接出现在最感兴趣的区域中的交互式和非侵入性提示,以实现指导用户使用系统功能;交互式Web助手模块1606能够为每个用户定义帮助器配置,以便每个用户可以根据自己的系统知识来决定是否需要帮助;交互式Web助手模块1606能够向不同类型的用户建议不同的网络助手主题,以使建议更有针对性;交互式Web助手模块1606的功能包括上下文交互助手、根据用户或用户组定制。
作为本发明的一种实施方式,自组织映射SOM基于人工神经元网格,自组织映射SOM的权重不断适应相应训练集中输入中呈现的向量,能够生成2D或3D地图,每个人工神经元在代表输出地图上都有一个精确的位置,2D或3D地图参与了一个称为赢家通吃的过程,在此过程结束时,具有最接近特定输入的权重向量的节点被宣布为获胜者,同时更新相同的权重以使获胜者更接近输入向量;每个节点都有许多相邻的节点,当一个节点赢得比赛时,即使相邻节点的权重也被修改,根据一般规则,一个节点离获胜节点越远,其权重的变化就越少;对训练集的每个向量重复该过程,持续多个循环,不同的投入会产生不同的赢家,以这种方式映射成功地将输出节点与整个输入数据集中的组或重复模式相关联。
作为本发明的一种实施方式,神经网络模块1403采用的神经网络算法包括监督学习算法、无监督学习算法以及强化学习算法;
监督学习算法有一个训练集,包含输入的典型示例和相关的相应输出,允许网络学习推断它们之间的关系,网络通过合适的算法(通常是监督学习算法的反向传播)进行训练,该算法使用这些数据来修改权重和其他网络参数,从而最大限度地减少与训练集,如果训练成功,网络将学会识别将输入变量与输出绑定的未知关系,并且即使输出不是先验已知的,也能够进行预测,换句话说,监督学习的最终目标是预测每个有效输入值的输出值,仅基于有限数量的对应示例(即输入-输出值对),为此,网络必须具备足够的泛化能力;
无监督学习算法为基于修改网络权重的训练算法,这些网络权重专门针对仅包含输入变量的数据集,该算法通常使用拓扑或概率方法尝试对输入数据进行分组并识别代表相同数据的适当集群;无监督学习算法也用于开发数据压缩技术;
强化学习算法旨在识别操作方式,从对外部环境的观察过程开始;每一个动作都会对环境产生影响,环境会产生反馈,在学习过程中指导算法,通过假设了一个具有感知能力的代理,它可以探索发生一系列动作的环境,作为回应,环境会根据情况提供激励或抑制,强化学习算法试图最终确定旨在最大化代理在探索问题期间获得的累积激励的策略;强化学习算法与监督学习算法不同,因为已知示例的输入-输出对从未出现过,并且没有明确纠正次优动作,强化学习算法还专注于在线服务,涉及平衡未知情况和现有知识的利用。
作为本发明的一种实施方式,导入模块1301支持的文件格式有:Microsoft Word(doc)、Microsoft Excel(xls,xlt)、Microsoft Powerpoint(pps、ppt)、
Microsoft OpenXml(docx、docm、dotx、dotm、pptx、pptm、potx、potm、ppsx、ppsm、xlsx、xlsm、xltx、xltm)、PDF、RTF、Openoffice(odt、ott、sxw、stw、sdw、ods、ots、sxc、stc、sdc、odp、otp、sxi、sti、sxd、sda、sdd、odg)、XML、文本文件、掌上文件、WordPerfect文档、电邮、HTML/XML、图像(BMP、BUFR、CUR、DCX、EPS、FITS、FLI、FLC、FPX、GBR、GD、GIF、GRIB、ICO、IM、IMT、JPEG、MCIDAS、MIC、MSP、PCD、PCX、PNG、PPM、PSD、SGI、TGA、TIFF、WAL,、WMF、XBM、XPM)、压缩文档(ZIP、GZIP、BZIP2、TAR、7z、ARJ、CAB、CHM、CPIO、DEB、DMG、HFS、ISO、LZH、LZMA、MSI、NSIS、RAR、RPM、UDF、WIM、XAR、Z);
导入模块1301通过数据库连接器,能够提取信息的数据库有:SQL服务器、Oracle、PostgreSQL、MySQL、DBA2。
优选地,本发明技术方案所涉及的所有模块、器件以及引擎的实现方式均采用公开的、成熟的、开源的程序架构、程序代码以及公开的、成熟的规则、流程和算法,本领域的技术人员根据本技术方案描述的功能可以轻易采用已有的、公开的程序架构、程序代码以及公开的、成熟的规则、流程和算法实现。
以上对本发明的实施例进行了详细的说明,但本发明的创造并不限于本实施例,熟悉本领域的技术人员在不违背本发明精神的前提下,还可以做出许多同等变型或替换,这些同等变型或替换均包含在本申请的权利要求所限定的保护范围内。