CN114896305A

CN114896305A - 一种基于大数据技术的智慧互联网安全平台

Info

Publication number: CN114896305A
Application number: CN202210575326.1A
Authority: CN
Inventors: 胡蓉; 任富强; 侯健; 侯卓伟; 陈志文; 张丽; 孙毅成
Original assignee: Inner Mongolia Autonomous Region Public Security Bureau; Iflytek Information Technology Co Ltd
Current assignee: Inner Mongolia Autonomous Region Public Security Bureau; Iflytek Information Technology Co Ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-08-12

Abstract

本申请涉及一种基于大数据技术的智慧互联网安全平台，包括：数据接入系统、数据处理系统、数据仓库、多媒体AI能力系统、声纹能力系统、应用服务层、功能接口。本申请通过采集蒙语数据，之后对蒙语数据进行处理分析，实现对蒙语的半结构化、非结构化数据进行结构化处理，并提高蒙语数据的处理效率；通过翻译后的文本要素抽取实现敏感内容抽取、积累入库，提高了对涉蒙内容的监测和分析效率；利用人工智能、大数据和蒙古文信息处理技术，实现对各种渠道获取的各种蒙古文文字、图像和音频信息的识别、翻译、检索、监测及管理，提高了涉蒙内容的互联网安全管理自动化程度。

Description

一种基于大数据技术的智慧互联网安全平台

技术领域

本申请涉及涉蒙互联网安全管理的领域，尤其是涉及一种基于大数据技术的智慧互联网安全平台。

背景技术

在新时期，在应对传统形式犯罪的同时，维护社会稳定和国家安全的工作面临着新的挑战。语音分析是一种获取情报信息的重要支撑手段。随着网络语音数据的飞速增长，获取的语音数据量迅猛增加，现有人工处理的方式已经不能满足实战的需要。在这样的形式下，如何及时、有效的发现、监管、处理分析互联网敏感信息，已经成为业务单位亟待解决的问题，互联网数据中也包含大量的蒙古文文字、图像和音频资源，网民通过视频、语音等多媒体方式进行沟通联系的平台和技术迅速发展成熟。网民利用蒙古语在通讯工具中进行便捷的沟通交流的同时，也为公共安全机关的正常管理带来极大难题，对人员的需求量巨大，且很难保证时效性。

CN201711072925.7公开了一种基于大数据技术的超大型互联网平台安全等级保护威胁信息监测与分析系统及方法，其技术方案为：包括：互联网数据监测模块，该模块基于Scrapy框架构建，获取与分拣互联网威胁信息、威胁情报和监测信息，以形成威胁信息库、威胁情报库和监测信息库，供其它模块使用；等级保护数据分类索引模块：该模块基于ElasticSearch数据库构建，通过导入等级保护备案数据，调研数据和测评数据，并结合国家的相关等级保护标准进行数据增强和解析，形成超大型互联网平台资产库和等级保护资产库；调度总线模块，该模块提供Restful API接口，支持异步执行，可以任务的方式运行；安全威胁分析与多维展示模块，该模块分别与调度总线模块、互联网数据监测模块以及等级保护数据分类索引模块数据连接，通过调度总线模块控制互联网数据监测模块以及等级保护数据分类索引模块运行，并调用多种机器学习方法将采集到的海量信息进行关联、分类、聚类和协同过滤分析，并以方式动态呈现安全威胁现状和安全态势，且进行多维展示。

但是，该基于大数据技术的超大型互联网平台安全等级保护威胁信息监测与分析系统及方法也具有以下缺点：未对涉蒙信息进行针对性优化，对涉蒙内容难以高效监测分析。

发明内容

为了解决未对涉蒙信息进行针对性优化，对涉蒙内容难以高效监测分析的问题，本申请提供一种基于大数据技术的智慧互联网安全平台。

本申请提供一种基于大数据技术的智慧互联网安全平台，包括数据接入系统、数据处理系统、数据仓库、多媒体AI能力系统、声纹能力系统、应用服务层、功能接口，

所述数据接入系统用于实现多源多规复杂数据的高效稳定接入，并在接入过程中对接入数据的种类、状态、质量进行实时监控；

所述数据处理系统用于按照数据接入系统的数据定义，针对大数据特性，以数据应用为导向，通过规范化的处理，提升数据价值密度，为数据智能应用实现数据增值、数据准备、数据抽象；所述数据处理系统包括：数据提取模块、数据过滤模块、数据去重模块、数据格转模块、数据检验模块、数据关联模块、数据比对模块、数据标识模块、数据分发模块；所述数据处理系统接入数据仓库，并将处理后的数据导入数据仓库内；

所述数据仓库包括：涉蒙数据原始库、涉蒙业务资源库和涉蒙业务知识库；

所述多媒体AI能力系统用于接收数据仓库的多媒体数据并进行互联网蒙语信息情报的自动化挖掘；所述多媒体AI能力系统包括：视频类处理引擎、图像类处理引擎、音频类处理引擎和文本类处理引擎；

所述视频类处理引擎包括：视频切帧子引擎、图文识别子引擎、图像预警子引擎、人脸提取子引擎、图文转写子引擎、音频转写子引擎、音频提取子引擎、文本语种检测子引擎、文本翻译子引擎、意图分类子引擎、要素提取子引擎、内容分析预警子引擎、通用模型研判识别子引擎和自建分析研判模型子引擎；

所述文本类处理引擎包括文本语种检测子引擎、文本翻译子引擎、意图分类子引擎、要素提取子引擎、内容分析预警子引擎、通用模型研判识别子引擎和自建分析研判模型子引擎；

所述音频类处理引擎包括音频转写子引擎和文本类处理引擎；

所述图像类处理引擎包括图文识别子引擎、图像预警子引擎、人脸提取子引擎、图文转写子引擎和文本类处理引擎；

所述声纹能力系统用于通过涉蒙声纹识别、声纹比对技术，落查人员身份；所述声纹能力系统包括：说话人分离引擎、声纹提取比对引擎、声纹聚类引擎、声纹自动注册引擎、声纹识别引擎、特征库管理引擎；

所述功能接口用于将多个专业领域的技术引擎，通过分布式框架进行封装，并给应用服务层提供相应处理接口服务，从而满足应用服务层的数据的处理流程以及功能实现；

所述应用服务层用于整合数据仓库、多媒体AI能力系统、声纹能力系统、功能接口，并形成应用功能模块，包括：多媒体智探模块、声纹综合专项模块、特定数据分析模块、多媒体异常信息管理模块。

通过上述技术方案，实现对各种渠道获取的各种蒙古文文字、图像和音频信息的识别、翻译、检索、监测及管理，提高了涉蒙内容的互联网安全管理自动化程度。

进一步的，所述数据接入系统支持多源接入，支持对数据接入的插件化管理，支持关系型数据库、NoSQL数据库、分布式存储系统、流式处理系统、消息中间件系统、本地及远程数据文件系统；支持多样化的数据类型，包括结构化、半结构化、非结构化的数据接入；支持对接入数据的解密及解压、数据传输的断点续传、数据的多样化分发，包括点对点以及数据的消息订阅分发功能；支持对接入数据常规指标的统计、传输数据的数据对账以及对接入数据的质量检测；根据数据接入场景，支持对数据接入的功能及任务的策略配置。

通过采用上述技术方案，全方位获取、接入各类数据，打破了部门壁垒，拓宽数据获取渠道，同时实现了多源多规复杂数据的高效稳定接入和实时监控。

进一步的，所述数据提取模块用于根据预设标准模板和规则从源数据中发现并提取出以关键要素为核心相关属性信息，所述关键要素包括人、地、物、事、组织和关系，数据处理系统自动在实时数据流中匹配出符合规则的数据；

所述数据提取模块包括非结构化数据提取模块和结构化数据提取模块，数据提取模块的提取方法为结合正则表达式、规则匹配、NLP处理和音视频AI能力，从而提高数据提取的广度和准确度，通过NLP处理可以从南方中心聊天内容文本、互联网网站文本中提取姓名、公民身份号码、手机号、银行卡号、车牌号等实体及实体间关系、事件等信息，以及相关标签信息，通过音视频AI能力可以提取音视频图片中的车牌、文字、图标、人员身份等实体信息，以及相关标签信息。

所述数据过滤模块包括基于数据标准规则和过滤规则，用于对不符合标准及规则的数据进行过滤；数据过滤模块基于样本和内容分析，对冗余或垃圾信息进行辨别、分离和过滤；数据过滤模块通过AI能力，构建基于样本和内容分析的过滤处理；数据过滤模块通过音频解码、音频降噪、有效音时长检测，过滤掉无效音视频；数据过滤模块根据图片的有效性检测、清晰度检测过程筛选掉无效图片；

所述数据去重模块用于在各类场景下设定数据重复判别规则以及合并、清除策略，对数据进行重复性辨别，并对重复数据进行合并和清除处理；对于结构化数据提取模块按照内容进行去重；数据去重模块通过AI能力构建基于样本和内容分析的去重处理，包括：通过音频内容分析和音频原声比对，对音视频数据进行去重和通过图像识别分析，对视频图片数据进行去重；

所述数据格转模块用于根据数据元标准把非标准数据转化成统一的标准格式进行输出；

所述数据检验模块用于根据数据质量检核规则对数据进行检验，数据检验模块的内容包括数据的完整性校验、一致性校验；所述数据质量检核规则包括空值校验、取值范围校验、公民身份数据校验、数值校验、长度校验、精度校验、多字段条件校验、业务规则校验。其中，空值校验：对数据字段的空值情况进行校验，对必填项进行补充或进入问题库。取值范围校验：对数据字段的取值范围进行校验，不符合范围的数据进入问题库。数值校验：对数值型数据字段进行校验，不符合数值型，进行格式转换并存储，无法转换成数值型的数据进入问题库。长度校验：对数据字段的长度进行校验，不符合长度的数据进行截取，进入问题库。多字段条件校验：对多个相关字段进行互相校验，字段间出现矛盾的数据，进入问题库。比如身份证号码和出生日期的互相校验；

所述数据关联模块用于将网上网下各种存在关系的数据进行关联，包括上级公共安全机关推送数据、互联网数据关联、本地数据信息关联、部平台数据与本地基础信息关联、语音数据与声纹关联、声纹与真实身份关联；

所述数据比对模块包括结构化比对、关键词比对、与非结构化融合比对、二进制比对、文件特征比对、声纹比对处理；

所述数据标识模块用于以离线或在线的方式对数据、数据集进行特性、特征的识别和认定，对数据进行标识可以增加数据维度，拓展数据的属性；所述数据分发模块用于根据数据定义中的数据分发策略，根据不同的应用场景和分析数据本身信息、关联、关系、标签信息，配置对应的分发引擎，将数据处理系统处理后的数据对应分发到涉蒙数据原始库、涉蒙业务资源库和涉蒙业务知识库中。

通过采用上述技术方案，实现了数据的规范化处理，提升数据价值密度。

进一步的，所述涉蒙数据原始库包括通过语种识别过滤出的原始数据、本地部级系统数据原始库、外部部级系统数据原始库和互联网公开数据原始库；所述本地部级系统数据原始库存储本地蒙语、本地蒙语口音数据源和服务商的原始数据；所述外部部级系统数据原始库存储数据处理系统的数据内容；所述互联网公开数据原始库存储来自网站、微博、直播流媒体、视频播放APP的网络行为原始数据。

所述涉蒙业务资源库由涉蒙数据原始库中各类原始数据经过数据提取、数据清洗、数据关联、数据比对、数据打标与分类、多媒体编解码预处理过程，按照数据的基本属性形成；具体包括涉蒙业务要素关联库、涉蒙业务要素关系库、涉蒙业务要素重点内容库、涉蒙业务要素分布库、涉蒙业务要素资源分布库、涉蒙档案库、涉蒙场所库、涉蒙事件库、涉蒙信息库、涉蒙业务资源明细统计库；

所述涉蒙业务知识库由数据接入、处理、治理、组织和服务需要的知识性数据，以及公共安全领域各种通用模型需要的知识性数据、通用算法组成；涉蒙业务知识库包括数据接入规则库、元数据采集知识库、数据字典知识库、标签规则库、关系规则表、基础知识库和业务知识库。

通过采用上述技术方案，针对数据资源进行标准统一、流程规范，满足机关各业务局业务专题数据落地建库需求，形成大数据总索引、总关联、总导航，强化大数据内部关联。

进一步的，所述视频类处理引擎从数据仓库提取蒙语的视频数据，通过音频提取子引擎从蒙语的视频数据提取蒙语的音频数据，之后提取数据仓库的蒙语语音信息，通过音频转写子引擎，将蒙语语音信息转化为蒙语文本信息，通过文本语种检测子引擎提取数据仓库的蒙语文本信息，之后文本翻译子引擎将蒙语文本信息翻译成中文文本信息；要素提取子引擎识别中文文本信息所包含的要素信息，包含人名、地名、事务、组织信息，并且根据提取出来的人名、地名、事务得到对应的要素组织信息；意图分类子引擎根据中文文本信息的主题、内容和属性，将中文文本信息归到一个或多个类别，识别文本信息中所表达的意图；内容分析预警子引擎通过建立基础库，结合人工经验战法模型，从关键词对中文文本信息进行打分预警，并按照分值高低排序，发现有害信息并提醒；通用模型研判识别子引擎通过建立通用模型对中文文本信息进行研判识别；自建分析研判模型子引擎通过对大数据的事件发生、发展趋势的分析、学习，形成具有针对性的事件分析研判模型，进行进一步研判；视频类处理引擎通过视频切帧子引擎从视频数据提取图像数据，之后通过图文识别子引擎提取数据仓库的涉及蒙语的图像数据，通过图像的OCR识别提取蒙语文本信息，之后按照上述蒙语文本信息处理步骤执行。

所述文本类处理引擎，按照上述视频类处理引擎中蒙语文本信息处理步骤执行。

所述音频类处理引擎提取数据仓库的蒙语语音信息，通过音频转写子引擎，将蒙语语音信息转化为蒙语文本信息，最后由文本类处理引擎处理；

所述图像类处理引擎通过图文识别子引擎提取数据仓库的涉及蒙语的图像数据，通过图像的OCR识别提取蒙语文本信息，之后由文本类处理引擎处理；

所述图像类处理引擎还包括图像预警子引擎和人脸提取子引擎，检测涉及蒙语的图像数据是否存在人物、人群、游行、枪支、旗帜、色情、血腥、自焚、烧伤的场景，若存在图像预警子引擎进行预警提醒；所述人脸提取子引擎包括重点人像的知识库和人脸相似度识别引擎，通过知识库和人脸相似度识别引擎对比图像数据，实现重点人像的预警。

通过采用上述技术方案，填补了现有技术中关于蒙语识别的空白，提升了蒙语语音识别准确率以及文本翻译的准确流畅率，有效支持实战业务，真正发挥实战作用，实现了互联网蒙语信息情报的自动化挖掘，提升了涉蒙互联网安全管理的工作效率。

进一步的，所述说话人分离引擎用于检测单条语音中哪些片段语音属于同一个说话人，对单条语音中包含人员进行自动识别，并根据识别不同人员，自动识别说话人片段信息，提取说话人特征，并采用说话人分离算法，分离出单个说话人语音；

所述声纹提取比对引擎基于库中已有的声纹数据，实现声纹的自动化分析比对，找出库中与提交的语音数据相似的数据，并将结果展现给用户，从而缩小人工鉴别范围；

所述声纹聚类引擎通过N：N聚类的算法，进行声纹的相似度检测，将属于同一个人说话的语音片段不断进行合并归类，最后属于同一个人说话的语音片段全部被归为一类；类内语音的相似度极高，类间语音的相似度较低，达到将这些语音片段分人整理的目的。

所述声纹自动注册引擎将符合声纹注册标准的语音音频进行声纹特征注册，用于与未知身份语音进行声纹比对，能够为案件提供线索；

所述声纹识别引擎用于通过一段语音自动判断出说话人的身份，可以有效地实现针对特定说话人的语音数据定位和监控；

所述特征库管理引擎用于利用声纹特征提取和自动聚类，针对多源语音数据形成稳定说话人声纹，建设全量声纹库；特征库管理引擎基于声纹闭环迭代更新技术手段，对全量声纹进行周期性纠偏，降低因时间漂移对声纹产生的负面影响，完善和提升声纹建库的稳定性和可持续性。

进一步的，所述多媒体智探模块用于通过对内容的一键式探寻，发现隐藏的关联信息或线索情况，支持探寻本地信息资源、多媒体描述信息、多媒体结构化信息、重点系统的互联资源，通过结果数据关联，业务处理，将探寻结果反馈至用户。

进一步的，所述声纹综合专项模块用于对声纹数据进行管理，包括声纹数据库、身份核查、海量数据布控、重点人员其他虚拟号码发掘和离线语音数据声纹，有效的缩小侦察范围，提高侦察效率，为民生警务、情报侦察等提供全方位服务。

所述声纹数据库建立声纹数据与说话人身份信息的对应关系；

所述身份核查通过获取嫌疑人的语音，对语音的声纹数据处理，在符合预警的条件下，发起身份核查任务，通过对比声纹数据库的相似声纹确认嫌疑人的身份，对比方法包括一对一和一对多；

所述海量数据布控根据声纹对象的属性信息，增加业务属性的布控条件，所述属性信息包括性别和说话语种，所述布控条件包括时间周期和声纹数据范围，所述业务属性包括预警推送、声纹相似度排序、声纹相似度排分、声纹辨听、声纹剔除和声纹研判；

所述重点人员其他虚拟号码发掘，通过建立已知重点人员的身份信息，对已知重点人员的声纹，发起号码发现的声纹比对任务，发掘已知重点人员的其他号码。

进一步的，所述特定数据分析模块用于通过批量数据导入，将原始数据结构化后，分析账号与群组、群成员之间的关系，发现关键节点；通过大数据算法、关键词命中对聊天内容进行预警；同时对系统内账号落查真实身份，录入系统中与虚拟身份进行关联，形成虚实档案库，便于用户查看重点人落地情况，也便于后续对虚拟身份的落地查证，减少重复落查。

进一步的，所述多媒体异常信息管理模块基于核心的机器翻译技术，实现面向小语种的文本数据翻译，同时结合OCR图文识别、智能语音识别技术，实现针对更多非结构化类型的数据分析，即将图像、音频数据进行结构化分析，形成文本数据，继而进行翻译与分析；通过对海量文本数据进行文本的监控，进行有害信息预警，对大量事件发生、发展趋势的分析、学习，形成事件分析研判模型。

综上所述，本申请包括以下有益技术效果：

1.提升了蒙语异常信息的巡查发现预警能力，营造清朗的网络空间，维护社会稳定的能力；

2.通过人工标注、优化训练、辅助机器学习自动化处理技术，实现对多语种的半结构化、非结构化数据进行结构化处理；并通过翻译后的文本要素抽取实现敏感内容抽取、积累入库，提高了对涉蒙内容的监测和分析效率；

3.利用当前先进的人工智能、大数据和蒙古文信息处理技术，实现对各种渠道获取的各种蒙古文文字、图像和音频信息的识别、翻译、检索、监测及管理，进一步提高了涉蒙内容的互联网安全管理自动化程度。

附图说明

图1是本申请实施例的一种基于大数据技术的智慧互联网安全平台的结构图。

具体实施方式

下面对照附图，通过对实施例的描述，本申请的具体实施方式如所涉及的各构件的形状、构造、各部分之间的相互位置及连接关系、各部分的作用及工作原理、制造工艺及操作使用方法等，作进一步详细的说明，以帮助本领域技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

参照图1所示，一种基于大数据技术的智慧互联网安全平台，包括数据接入系统、数据处理系统、数据仓库、大数据子平台、多媒体AI能力系统、声纹能力系统、应用服务层和功能接口。

所述数据接入系统用于实现多源多规复杂数据的高效稳定接入，并在接入过程中对接入数据的种类、状态、质量情况进行实时监控。

所述数据处理系统用于按照数据接入系统的数据定义，针对规模巨大、类型多样、高速流转、复杂多变、质量参差不齐、价值密度高低不一的大数据特性，以数据应用为导向，通过规范化的处理，提升数据价值密度，为数据智能应用实现数据增值、数据准备、数据抽象。所述数据处理系统包括：数据提取模块、数据过滤模块、数据去重模块、数据格转模块、数据检验模块、数据关联模块、数据比对模块、数据标识模块和数据分发模块。所述数据处理系统接入数据仓库，并将处理后的数据导入数据仓库内。

所述数据仓库包括：涉蒙数据原始库、涉蒙业务资源库、涉蒙业务知识库。

所述文本类处理引擎包括文本语种检测子引擎、文本翻译子引擎、意图分类子引擎、要素提取子引擎、内容分析预警子引擎、通用模型研判识别子引擎和自建分析研判模型子引擎。

所述音频类处理引擎包括音频转写子引擎和文本类处理引擎。

所述图像类处理引擎包括图文识别子引擎、图像预警子引擎、人脸提取子引擎、图文转写子引擎和文本类处理引擎。

所述声纹能力系统用于通过涉蒙声纹识别、声纹比对技术，落查人员身份。所述声纹能力系统包括：说话人分离引擎、声纹提取比对引擎、声纹聚类引擎、声纹自动注册引擎、声纹识别引擎、特征库管理引擎。

所述功能接口用于将多个专业领域的技术引擎，通过分布式框架进行封装，并给应用服务层提供相应处理接口服务，从而满足应用服务层的数据的处理流程以及功能实现。

所述应用服务层用于整合数据仓库、多媒体AI能力系统、声纹能力系统、功能接口，并形成应用功能模块，包括智慧翻译模块、多媒体智探模块、声纹综合专项模块、特定数据分析模块、多媒体异常信息管理模块和会议调度模块。

所述数据接入系统支持多源接入，支持对数据接入的插件化管理，支持关系型数据库、NoSQL数据库、分布式存储系统、流式处理系统、消息中间件系统、本地及远程数据文件系统；支持多样化的数据类型，包括结构化、半结构化、非结构化的数据接入；支持对接入数据的解密及解压、数据传输的断点续传、数据的多样化分发，包括点对点以及数据的消息订阅分发功能；支持对接入数据常规指标的统计、传输数据的数据对账以及对接入数据的质量检测；根据数据接入场景，支持对数据接入的功能及任务的策略配置。

所述数据提取模块用于根据预设标准模板和规则从源数据中发现并提取出以关键要素为核心相关属性信息，所述关键要素包括人、地、物、事、组织和关系，其中预设标准模板可以根据实际需求，灵活的进行增加维护和更新，数据处理系统自动在实时数据流中匹配出符合规则的数据；根据数据量的处理方式，分为全量提取、增量提取。

根据数据种类的不同，数据提取模块可细分为非结构化数据提取模块和结构化数据提取模块。数据提取模块的提取方法为结合正则表达式、规则匹配、NLP处理和音视频AI能力，从而提高数据提取的广度和准确度，通过NLP处理可以从南方中心聊天内容文本、互联网网站文本中提取姓名、公民身份号码、手机号、银行卡号、车牌号等实体及实体间关系、事件等信息，以及相关标签信息，通过音视频AI能力可以提取音视频图片中的车牌、文字、图标、人员身份等实体信息，以及相关标签信息。提取内容包括文本要素提取、文本摘要提取、多媒体特征提取、视频关键帧提取、音视频编码提取、声纹提取、语种提取和音视频片段提取。

所述数据过滤模块包括基于数据标准规则和过滤规则，用于对不符合标准及规则的数据进行过滤；数据过滤模块基于样本和内容分析，对冗余或垃圾信息进行辨别、分离和过滤；数据过滤模块通过AI能力，构建基于样本和内容分析的过滤处理；数据过滤模块通过音频解码、音频降噪、有效音时长检测，过滤掉无效音视频；数据过滤模块根据图片的有效性检测、清晰度检测过程筛选掉无效图片。

所述数据去重模块用于在各类场景下设定数据重复判别规则以及合并、清除策略，对数据进行重复性辨别，并对重复数据进行合并和清除处理；对于结构化数据提取模块按照内容进行去重；数据去重模块通过AI能力构建基于样本和内容分析的去重处理，包括通过音频内容分析和音频原声比对，对音视频数据进行去重和通过图像识别分析，对视频图片数据进行去重。

所述数据格转模块用于根据数据元标准把非标准数据转化成统一的标准格式进行输出；例如对文本、音视频文件、图片文件等属性进行标准化转换音视频文件格式转换：音频采样率8K，量化比特数16bit或者音频采样率16K，量化比特数16bit。

所述数据检验模块用于根据数据质量检核规则对数据进行检验，数据检验模块的内容包括数据的完整性校验、一致性校验；所述数据质量检核规则包括空值校验、取值范围校验、公民身份数据校验、数值校验、长度校验、精度校验、多字段条件校验、业务规则校验。其中，空值校验：对数据字段的空值情况进行校验，对必填项进行补充或进入问题库。取值范围校验：对数据字段的取值范围进行校验，不符合范围的数据进入问题库。数值校验：对数值型数据字段进行校验，不符合数值型，进行格式转换并存储，无法转换成数值型的数据进入问题库。长度校验：对数据字段的长度进行校验，不符合长度的数据进行截取，进入问题库。多字段条件校验：对多个相关字段进行互相校验，字段间出现矛盾的数据，进入问题库。公民身份数据校验包括身份证号码和出生日期的互相校验。精度校验用于检测数据的准确度。业务规则校验用于维持业务结构或控制和影响业务的行为

所述数据关联模块用于将网上网下各种存在关系的数据进行关联，包括上级公共安全机关推送数据、互联网数据关联、本地数据信息关联、部平台数据与本地基础信息关联、语音数据与声纹关联、声纹与真实身份关联。

所述数据比对模块包括结构化比对、关键词比对、与非结构化融合比对、二进制比对、文件特征比对、声纹比对处理。其中，结构化比对通过对线索的比对获取相关人、物品信息，在接入数据中命中发现线索相关信息。关键词比对通过对关键词及关键词组合的比对，在海量全文数据中命中发现关键词相关信息。与非结构化融合比对规则中同时支持对结构化和非结构化信息的比对，实时发现接入数据中的相关信息。二进制比对通过对二进制比对目标文件进行 MD5 计算，与非结构化数据的 MD5 值进行比对，返回相似度数据结果和对应非结构化数据。文件特征比对在数据中命中发现文件特征相关信息，如以图比图，文本相似度比对等，以及设置图片特征规则，发现相同或相似图片。声纹比对处理从音频或视频文件中提取声纹特征信息，与声纹数据库中已有数据进行比对，发现生物特征相关信息，从而确定身份信息。

所述数据标识模块用于以离线或在线的方式对数据、数据集进行特性、特征的识别和认定，对数据进行标识可以增加数据维度，拓展数据的属性；所述数据标识模块对数据仓库的多媒体数据进行语种标识和涉务标识；涉务标识可以是具体的各种涉及不同事务的标识，例如涉及政治的涉政标识、涉及军队的涉军标识、涉及上访维权的上访维权标识、涉及当前网红事件的涉网红标识。

所述数据分发模块用于根据数据定义中的数据分发策略，根据不同的应用场景和分析数据本身信息、关联、关系、标签信息，配置对应的分发引擎，将数据处理系统处理后的数据对应分发到涉蒙数据原始库、涉蒙业务资源库和涉蒙业务知识库中。

所述涉蒙数据原始库包括通过语种识别过滤出的原始数据、本地部级系统数据原始库、外部部级系统数据原始库和互联网公开数据原始库；所述本地部级系统数据原始库存储本地蒙语、本地蒙语口音数据源和服务商的原始数据；所述外部部级系统数据原始库存储数据处理系统的数据内容；所述互联网公开数据原始库存储来自网站、微博、直播流媒体、视频播放APP的网络行为原始数据。

所述涉蒙业务资源库由涉蒙数据原始库中各类原始数据经过数据提取、数据清洗、数据关联、数据比对、数据打标与分类、多媒体编解码预处理过程，按照数据的基本属性形成；具体包括涉蒙业务要素关联库、涉蒙业务要素关系库、涉蒙业务要素重点内容库、涉蒙业务要素分布库、涉蒙业务要素资源分布库、涉蒙档案库、涉蒙场所库、涉蒙事件库、涉蒙信息库、涉蒙业务资源明细统计库。

数据接入规则库包括数据接入、处理、治理、组织、服务中提炼的规则，数据运维过程中的监测、告警和处置的规则，数据质量监测、告警管理的规则，数据探查、读取和对账的规则。对数据接入规则库进行设计的字段包括数据来源ID、目标数据ID、作业配置特征当前web层数据源参数信息、集群ID、作业配置详细信息和作业任务ID的来源数据的数据抽取规则、数据加载规则，定义各层数据资源间流转的提取、清洗、关联、比对、标识的规则和定义数据按原始库、资源库、主题库、业务库的分发规则。

元数据采集知识库包括建立涉蒙数据原始库的元模型，规范数据处理过程的结构化描述，实现不同来源数据的元数据统一维护管理，实现数据元数据定义与互通，促进数据处理过程规范化，并记录所有数据模型设计的业务规则、数据结构。对元数据采集知识库进行设计的字段包括数据源、数据库、原始表代码、原始表名称、字段标识、字段名称、字段类型、是否需要对标、是否属于代码集和源字典表名，通过元数据采集，记录所有数据模型设计的业务规则、数据结构、数据模型的数量、数据项的数量、数据项的类型，以及元数据的变动历史信息。

数据字典知识库包括各类数据字典和同义词库。数据字典知识库的设计字段包括字典编码、中文名称、简称、拼音简码、上级编码、有效标识符、字段类别和字段描述。建立数据字典知识库的设计字段包括数据仓库中的常用知识，法人和其他组织统一社会信用代码编码规则，中华人民共和国行政区划代码，公共安全数据元，公共安全数据元限定词，以及各数据源业务系统与标准字典的映射关系。

标签规则库定义了对全网络、全地域、全应用可以共用的、与业务无关的通用标签信息、标签分类信息和通用标签规则。设计标签规则库的字段包括标签主题类别、字段名称、字段中文名称、更新评率、最后更新时间、字段状态和标签计算类型。

关系规则表包括联系人的相关信息和联系人的伴随关系、社会关系。

基础类知识库是根据日常业务工作中，通过一个或多个要素组合，描述专题业务特点及关系的知识，形成能够预测犯罪、掌握趋势的知识库，能够通过人工维护及样本机器学习推导规则的方式进行更新。

业务类知识库是根据日常业务工作中，总结出的跟业务相关的人员信息、关键词、分析模型、分类样本、日常积累和搜集的网站及URL信息。业务类知识库包括关键词库、特定语种人员库、重点信源库、原声库、图像库和视频库。

针对数据资源进行标准统一、流程规范，满足机关各业务局业务专题数据落地建库需求，形成大数据总索引、总关联、总导航，强化大数据内部关联。

所述多媒体AI能力系统基于DFCNN的声学建模技术、基于卷积神经网络的文字识别技术、基于深度全连接网络的智能版面分析及图文识别、基于深度学习翻译技术及基于生成对抗网络的统一多语种机器翻译模型技术，构建服务引擎，实现蒙文语种识别、蒙文连续语音识别、蒙文方言识别、蒙文图像识别、蒙汉文本翻译、蒙文文本意图分类功能。

所述视频类处理引擎从数据仓库提取蒙语的视频数据，通过音频提取子引擎从蒙语的视频数据提取蒙语的音频数据，之后提取数据仓库的蒙语语音信息，通过音频转写子引擎，将蒙语语音信息转化为蒙语文本信息，通过文本语种检测子引擎提取数据仓库的蒙语文本信息，之后文本翻译子引擎将蒙语文本信息翻译成中文文本信息；要素提取子引擎识别中文文本信息所包含的要素信息，包含人名、地名、事务、组织信息，并且根据提取出来的人名、地名、事务得到对应的要素组织信息；意图分类子引擎根据中文文本信息的主题、内容和属性，将中文文本信息归到一个或多个类别，识别文本信息中所表达的意图；内容分析预警子引擎通过建立基础库，结合人工经验战法模型，从关键词对中文文本信息进行打分预警，并按照分值高低排序，发现有害信息并提醒；通用模型研判识别子引擎通过建立通用模型对中文文本信息进行研判识别；自建分析研判模型子引擎通过对大数据的事件发生、发展趋势的分析、学习，形成具有针对性的事件分析研判模型，进行进一步研判；视频类处理引擎通过视频切帧子引擎从视频数据提取图像数据，之后通过图文识别子引擎提取数据仓库的涉及蒙语的图像数据，通过图像的OCR识别提取蒙语文本信息，之后按照上述蒙语文本信息处理步骤执行。所述图文识别子引擎结合具有检测暗、亮的模式确定图像形状，然后用字符识别方法将形状翻译成计算机文字功能的光学字符识别OCR识别服务，利用各种模式识别算法分析文字形态特征，判断出蒙文的标准编码，可以快速提取出图片中包含的蒙古文文本信息，并按通用字符格式存储在文本文档中，并为后续的业务分析提供更多的数据支撑。

具体包括以下步骤：

S01：音频提取子引擎包括A1：语音信息预处理，对视频数据中的音频进行场景分割，划分为音乐、噪音、语音。语音信息预处理包括：能量四门限算法，设置“静寂状态”、“语音起始状态”、“语音稳定状态”及“语音衰减状态”四个状态，根据需要可以自行定义范围，并分别设置状态间跳转所需的四个能量门限值，根据视频数据中的音频中每一帧的能量信息，实现四个状态之间的跳转，最终实现音频中能量较高的语音片段的检测。基于规则的噪声判断算法，利用音频的频段能量，对通过了能量四门限算法的信号片段，进行音乐、噪音场景的初判。通过基于规则的初步检测，可以将多数的场景检测出来，但是考虑到具体环境的需求，每一套系统的特定应用环境下，场景情况均不同，所以还需要进行模型分类器判决。模型分类器判决，根据实际系统的应用环境，训练出与实际应用场景中所出现各种场景相匹配的模型；在训练过程中，引入区分性训练，并使用最小分类误差准则，提高场景分辨的效果，从而提高各种场景的匹配精度，得到最终的有效语音。这三个步骤的复杂度依次提升，分别针对不同的场景类型进行检出，最终实现不同的场景分割和检测出其中的语音片段。A2：语音信息语种识别，通过对蒙语语种进行声学模型训练和语言模型训练，对需要处理的视频数据进行语种识别比对，自动识别判断视频数据所属的语种，确认视频数据中的蒙语语种的视频数据片段；声学模型训练用于建立蒙语语种语音信息的数据库，包括数据筛选、数据标注、质量复核和抽样复查。声学模型训练具备3000小时的有效数据量。数据筛选的筛选语音为12000小时，折损率按75%计算。数据标注的标注语音为3890小时，折损率按23%计算。质量复核对数据标注后的3890小时数据进行100%全检。抽样复查将质量复核后的数据，抽取20%进行再次检查，检查的数据有600小时，最终形成3000小时有效数据。语言模型训练用于建立蒙语语种文本信息的数据库，与声学模型训练类似，这里不再具体阐述。A3：语音信息转写，对语音信息预处理得到的音乐、噪音、语音，进行端点检测、降噪，提取声学特征；将提取到的声学特征和对语音信息语种识别中识别到的蒙语语种的视频数据，在训练好的声学模型和语言模型训练中，使用解码器进行解码，进行音频文本转换得到蒙语的音频数据。填补了现有技术中关于蒙语识别的空白，提升了蒙语语音识别准确率以及文本翻译的准确流畅率，有效支持实战业务，真正发挥实战作用，实现了互联网蒙语信息情报的自动化挖掘，提升了涉蒙互联网安全管理的工作效率。其他语种方面，多媒体AI能力系统还支持实时中文语音转写服务、实时维语语音转写服务、实时英文语音转写服务、离线中文、英文、维语语音转写服务、中英、中维机器翻译服务。

S02：图像预警子引擎还包括:图像信息预处理，筛选是否满足图片的有效性检测，清晰度检测，以及图像的MD5去重功能。筛选是否满足图像增强、图像二值化、图像透视变换、图像边界检测、图像倾斜检测、图像外部块检测、图像内容区域检测。并针对满足检测的图像信息进行二值化、噪声去除、倾斜校正。其中，图像边界检测为黑边检测，用于检测图像边界是否存在黑色区域，图像外部块检测为非本页图像块，用于检测图像是否为同一页。所述二值化用于使图像信息只包含黑色的前景信息和白色的背景信息，从而提升图像信息预处理的效率和精确度。所述噪声去除根据噪声的特征对待识别的图像信息进行去噪处理，从而提升图像信息预处理的精确度；所述倾斜校正用于校正图像方向。由于彩色图像所含信息量过于巨大，在对图像中印刷体字符进行识别处理前，对图像进行二值化处理，使图像只包含黑色的前景信息和白色的背景信息，提升识别处理的效率和精确度。由于待识别图像的品质受限于输入设备、环境、以及文档的印刷质量，在对图像中印刷体字符进行识别处理前，根据噪声的特征对待识别图像进行去噪处理，提升识别处理的精确度。由于扫描和拍摄过程涉及人工操作，输入计算机的待识别图像或多或少都会存在一些倾斜，在对图像中印刷体字符进行识别处理前，进行图像方向检测，并校正图像方向。图像信息预处理的实时率保障一小时处理一百万张图片。

S03：文本翻译子引擎包括分词、词性标注和解码器解码。分词，将汉字序列切分成词序列。词性标注，给句子中每个词一个词性类别，包括数字和人名，防止数字和人名对翻译产生误导。词性作为对词的一种泛化，在语言识别、句法分析、信息抽取等任务中有重要作用。在翻译中也会利用词性信息，例如对于数字和人名等的翻译，如果仅仅依靠解码器是很难正确翻译的，如果在前处理过程中识别出数字和人名，在翻译时仅仅使用一个占位符，例如数字用$number、人名用$human_name代替，在后处理时再将原词还原就能比较好的处理数字和人名等的翻译。解码器解码，包括传统的基于层次短语的解码器PSMT和基于神经网络的解码器NMT。基于层次短语的解码器PSMT包括翻译模型、语言模型、扭曲模型、调序模型、搜索空间和数线性模型打分，基于层次短语的解码器PSMT用于将句子按照短语进行切分，每个短句分别进行翻译，然后再进行调序。所述搜索空间包括所有切分的短语，并获得所有的翻译假设，所述数线性模型打分对翻译假设打分，并选择得分最高的翻译假设作为翻译结果，从而提高翻译准确度。

S04：要素提取子引擎识别中文文本信息所包含的要素信息，包含人名、地名、事务、组织信息，并且根据提取出来的人名、地名、事务得到对应的要素组织信息。要素提取通过大数据中的行业领域数据，进行人工领域专家标注，所述的人工领域专家标注包括：词法、句法和语义；基于标注数据训练词法、句法、语义分析的统计模型。词法分析采用条件随机场模型，并结合规则文法，能达到较好的分词效果。句法采用概率上下文无关文法建立统计句法分析模型，并基于动态规划思想设计句法分析算法，并进行分析算法的裁剪策略效率优化。语义基于句法结构树进行语义特征提取，根据带语义标注的数据训练语义消歧模型，结合语义解析规则文法，实现对要素的语义理解。能够最大程度提取视频数据中的有效要素。

S05：意图分类子引擎根据中文文本信息的主题、内容和属性，将中文文本信息归到一个或多个类别，识别文本信息中所表达的意图；意图识别支持多类别的组合关键词匹配KWS策略，基于上访的实验原型，能够自定义不同类别的正负组合关键词，能够实现基于规则的关键词匹配；意图识别同时支持KWS、KWP、NB、LDA+SVM和NN五种策略；在进行多策略分类时，意图识别支持上述五种策略的配置使用，每个策略都支持多分类判别，从而提高意图识别的准确度。意图识别的配置方法为先通过多类别文本分类下的多策略得分融合,之后进行综合多策略得分融合，最后配置各个策略的权重，根据权重进行得分融合，从而提高意图识别的准确度。意图识别支持多策略输入输出统一格式,完成不同策略下面统一的输入输出格式定义，特别是输出，定义json格式，输出格式统一；意图识别基于NN策略，实现同时加载多个nn模型，支持配置各个nn模型的的权重和阈值，使用NN策略后计算各个nn模型的得分进行融合结果输出；意图识别基于NN策略能够动态切换使用的nn模型，使用灵活、方便。

S06：内容分析预警子引擎通过建立基础库，结合人工经验战法模型，从关键词对中文文本信息进行打分预警，并按照分值高低排序，发现有害信息并提醒。内容分析预警子引擎通过图像的OCR识别和音频数据的转写，建立关键词的知识库，结合关键词，发现图像中的有害文本信息，在接入视频数据时，对其中的中文、蒙文内容进行识别和提取，并且和关键词的知识库进行比对，所述文本内容预警还采取并行处理，并行处理用于提高文本内容预警的使用效率。

S07：通用模型研判识别子引擎通过建立通用模型对中文文本信息进行研判识别；自建分析研判模型子引擎通过对大数据的事件发生、发展趋势的分析、学习，形成具有针对性的事件分析研判模型，进行进一步研判。通用模型研判识别子引擎包括：色情内容、场景识别，分成色情、性感、正常三类，通过训练多个网络模型、对特定的用户采用多模型级连判定，对于视频鉴黄，先采用截帧鉴黄，对于疑似的图片，再采用视频片段算法和光流算法，视频片段算法和光流算法用于确认图片内容是否属于色情内容、场景识别，从而提高色情内容、场景识别的效率。暴恐内容智能识别，通过暴恐图片和视频数据源，依托分布式深度学习平台，对图片、视频进行暴恐分类，并对暴恐场景和暴恐物品，所述暴恐场景的识别包括游行、旗帜、台标，所述暴恐物品的识别包括枪支、面具、胡须脸。对于视频数据的处理还提前进行切帧。政治敏感人物智能识别，自动对视频中出现的政治人物进行智能识别，通过对比政治人物人脸的特征，识别出视频图像中是否存在政治人物，如果存在，识别出是谁。政治敏感人物智能识别模型建立政治敏感人像的知识库，通过知识库和当前人脸相似度识别引擎实现政治人像的预警。知识库可以预存各种重点人物的素材库，以便快速进行对比。

S08：自建分析研判模型，基于民警进行各自创建，因为每个民警在分析时使用的技战法是不同的，且各自挖掘方向并不相同，所以自建分析研判模型与各民警关联，打上相应业务属性，说明应用的案件方向，方便自建分析研判模型的精确使用。自建分析研判模型基于不同的数据源，包括两群数据、互联网数据，各自使用不同的技战法进行分析，在呈现时，基于不同的数据类型进行归类展示。自建分析研判模型包括公共模型和私有模型，所有自建分析研判模型能够根据当前使用的成效，发布成文公共模型或者是指定共享至其他民警，既满足各民警的独立使用需求，也将自建分析研判模型共享，便于数据挖掘与分析。自建分析研判模型的最终应用通过设置启用时间和应用数据范围与比对任务、预警分析挂钩，用于主动告警、提醒用户。

所述音频类处理引擎提取数据仓库的蒙语语音信息，通过音频转写子引擎，将蒙语语音信息转化为蒙语文本信息，最后由文本类处理引擎处理。

所述图像类处理引擎通过图文识别子引擎提取数据仓库的涉及蒙语的图像数据，通过图像的OCR识别提取蒙语文本信息，之后由文本类处理引擎处理。

所述说话人分离引擎用于检测上述视频类处理引擎和音频类处理引擎中单条语音中哪些片段语音属于同一个说话人，对单条语音中包含人员进行自动识别，并根据识别不同人员，自动识别说话人片段信息，提取说话人特征，并采用说话人分离算法，分离出单个说话人语音；对分离后每个说话人的语音片段进行聚类、合并，即可推送语音预处理和特征提取的服务。说话人分离引擎提供四种说话人分离的方式：通用盲分，指定人数分离，在线指定说话人分离，离线指定说话人分离。说话人分离难度较大，现有技术通常支持2人分离，本系统能够支持5人以下分离。

所述声纹提取比对引擎基于库中已有的声纹数据，实现声纹的自动化分析比对，找出库中与提交的语音数据相似的数据，其中数据的相似程度需要在90%以上，并将结果展现给用户，从而缩小人工鉴别范围。

所述声纹自动注册引擎将符合声纹注册标准的语音音频进行声纹特征注册，用于与未知身份语音进行声纹比对，能够为案件提供线索。

所述声纹识别引擎用于通过一段语音自动判断出说话人的身份，可以有效地实现针对特定说话人的语音数据定位和监控。

所述特征库管理引擎用于利用声纹特征提取和自动聚类，针对海量多源语音数据形成稳定说话人声纹，建设全量声纹库；特征库管理引擎基于声纹闭环迭代更新技术手段，对全量声纹进行周期性纠偏，降低因时间漂移对声纹产生的负面影响，完善和提升声纹建库的稳定性和可持续性。特征库管理引擎包括声纹信息维护和声纹模型重训，声纹信息维护实现对声纹的动态更新，维护与声纹信息关联的基础信息，对需要更新的信息进行实时更新，建立动态的更新规则和机制，确保数据的及时和准确。说话人声纹模型构建完成后，当收到新的语音时，系统持续的对说话人的声纹模型进行持续性训练，使用新语音训练新模型，保证声纹的准确性和鲜活度，保证识别准确率的稳定。

所述多媒体智探模块用于通过对内容的一键式探寻，发现隐藏的关联信息或线索情况，支持探寻本地信息资源、多媒体描述信息、多媒体结构化信息、重点系统的互联资源，通过结果数据关联，业务处理，将探寻结果反馈至用户。

所述声纹综合专项模块用于对声纹数据进行管理，包括声纹数据库、身份核查、海量数据布控、重点人员其他虚拟号码发掘和离线语音数据声纹，有效的缩小侦察范围，提高侦察效率，为民生警务、情报侦察等提供全方位服务。

所述声纹数据库建立声纹数据与说话人身份信息的对应关系。

所述身份核查通过获取嫌疑人的语音，对语音的声纹数据处理，在符合预警的条件下，发起身份核查任务，通过对比声纹数据库的相似声纹确认嫌疑人的身份，对比方法包括一对一和一对多。

所述一对一是指由系统自动比对模块将嫌疑人的一条语音与声纹数据库的一条语音进行比对，确认两条语音对应说话人声纹相似度，从而确认嫌疑人的身份；一对一对比的精度更高。

所述一对多是指由系统自动比对模块将嫌疑人的一条语音与声纹数据库的多条语音进行比对，确认两条语音对应说话人声纹相似度，从而确认嫌疑人的身份；一对多能够检测一组语音是否属于同一人，对比速度更块。

所述海量数据布控根据声纹对象的属性信息，增加业务属性的布控条件，所述属性信息包括性别和说话语种，所述布控条件包括时间周期和声纹数据范围，所述业务属性包括预警推送、声纹相似度排序、声纹相似度排分、声纹辨听、声纹剔除和声纹研判。

所述特定数据分析模块用于通过批量数据导入，将原始数据结构化后，分析账号与群组、群成员之间的关系，发现关键节点；通过大数据算法、关键词命中对聊天内容进行预警；同时对系统内账号落查真实身份，录入系统中与虚拟身份进行关联，形成虚实档案库，便于用户查看重点人落地情况，也便于后续对虚拟身份的落地查证，减少重复落查。

所述多媒体异常信息管理模块基于核心的机器翻译技术，实现面向小语种的文本数据翻译，同时结合OCR图文识别、智能语音识别技术，实现针对更多非结构化类型的数据分析，即将图像、音频数据进行结构化分析，形成文本数据，继而进行翻译与分析；通过对海量文本数据进行文本的监控，进行有害信息预警，对大量事件发生、发展趋势的分析、学习，形成事件分析研判模型。

以上示意性地对本发明及其实施方式进行了描述，该描述没有限制性，附图所示的也只是本发明的实施方式之一，实际的结构并不局限与此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不创造性地设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于大数据技术的智慧互联网安全平台，包括数据接入系统、数据处理系统、数据仓库、多媒体AI能力系统、声纹能力系统、应用服务层、功能接口，其特征在于：

所述声纹能力系统用于通过涉蒙声纹识别、声纹比对技术，落查多媒体AI能力系统挖掘的人员身份；所述声纹能力系统包括：说话人分离引擎、声纹提取比对引擎、声纹聚类引擎、声纹自动注册引擎、声纹识别引擎、特征库管理引擎；

所述功能接口用于将多个专业领域的技术引擎，通过分布式框架进行封装，并给应用服务层提供处理接口服务；

所述应用服务层用于整合数据仓库、多媒体AI能力系统、声纹能力系统、功能接口，并形成应用功能模块，包括：多媒体智探模块、声纹综合专项模块、特定数据分析模块和多媒体异常信息管理模块。

2.根据权利要求1所述的一种基于大数据技术的智慧互联网安全平台,其特征在于：

3.根据权利要求1所述的一种基于大数据技术的智慧互联网安全平台，其特征在于：

所述数据提取模块用于根据预设标准模板和规则从源数据中发现并提取出以关键要素为核心相关属性信息，所述关键要素包括人、地、物、事、组织和关系，数据处理系统自动在实时数据流中匹配出符合规则的数据；

所述数据提取模块包括非结构化数据提取模块和结构化数据提取模块，数据提取模块的提取方法为结合正则表达式、规则匹配、NLP处理和音视频AI能力；

所述数据去重模块用于在各类场景下设定数据重复判别规则以及合并、清除策略，对数据进行重复性辨别，并对重复数据进行合并和清除处理；对于结构化数据提取模块按照内容进行去重；数据去重模块通过AI能力构建基于样本和内容分析的去重处理，包括通过音频内容分析和音频原声比对，对音视频数据进行去重和通过图像识别分析，对视频图片数据进行去重；

所述数据检验模块用于根据数据质量检核规则对数据进行检验，数据检验模块的内容包括数据的完整性校验、一致性校验；所述数据质量检核规则包括空值校验、取值范围校验、公民身份数据校验、数值校验、长度校验、精度校验、多字段条件校验、业务规则校验；

所述数据标识模块用于以离线或在线的方式对数据、数据集进行特性、特征的识别和认定；

4.根据权利要求1所述的一种基于大数据技术的智慧互联网安全平台,其特征在于：

所述涉蒙数据原始库包括通过语种识别过滤出的原始数据、本地部级系统数据原始库、外部部级系统数据原始库和互联网公开数据原始库；

5.根据权利要求1所述的一种基于大数据技术的智慧互联网安全平台,其特征在于：

所述视频类处理引擎从数据仓库提取蒙语的视频数据，通过音频提取子引擎从蒙语的视频数据提取蒙语的音频数据，之后提取数据仓库的蒙语语音信息，通过音频转写子引擎，将蒙语语音信息转化为蒙语文本信息，通过文本语种检测子引擎提取数据仓库的蒙语文本信息，之后文本翻译子引擎将蒙语文本信息翻译成中文文本信息；要素提取子引擎识别中文文本信息所包含的要素信息，包含人名、地名、事务、组织信息，并且根据提取出来的人名、地名、事务得到对应的要素组织信息；意图分类子引擎根据中文文本信息的主题、内容和属性，将中文文本信息归到一个或多个类别，识别文本信息中所表达的意图；内容分析预警子引擎通过建立基础库，结合人工经验战法模型，从关键词对中文文本信息进行打分预警，并按照分值高低排序，发现有害信息并提醒；通用模型研判识别子引擎通过建立通用模型对中文文本信息进行研判识别；自建分析研判模型子引擎通过对大数据的事件发生、发展趋势的分析、学习，形成具有针对性的事件分析研判模型，进行进一步研判；视频类处理引擎通过视频切帧子引擎从视频数据提取图像数据，之后通过图文识别子引擎提取数据仓库的涉及蒙语的图像数据，通过图像的OCR识别提取蒙语文本信息，之后通过文本语种检测子引擎提取数据仓库的蒙语文本信息，文本翻译子引擎将蒙语文本信息翻译成中文文本信息；要素提取子引擎识别中文文本信息所包含的要素信息，包含人名、地名、事务、组织信息，并且根据提取出来的人名、地名、事务得到对应的要素组织信息；意图分类子引擎根据中文文本信息的主题、内容和属性，将中文文本信息归到一个或多个类别，识别文本信息中所表达的意图；内容分析预警子引擎通过建立基础库，结合人工经验战法模型，从关键词对中文文本信息进行打分预警，并按照分值高低排序，发现有害信息并提醒；通用模型研判识别子引擎通过建立通用模型对中文文本信息进行研判识别；自建分析研判模型子引擎通过对大数据的事件发生、发展趋势的分析、学习，形成具有针对性的事件分析研判模型，进行进一步研判；所述图像类处理引擎还包括图像预警子引擎和人脸提取子引擎，检测涉及蒙语的图像数据是否存在人物、人群、游行、枪支、旗帜、色情、血腥、自焚、烧伤的场景，若存在图像预警子引擎进行预警提醒；所述人脸提取子引擎包括重点人像的知识库和人脸相似度识别引擎，通过知识库和人脸相似度识别引擎对比图像数据，实现重点人像的预警；

所述文本类处理引擎通过文本语种检测子引擎提取数据仓库的蒙语文本信息，之后文本翻译子引擎将蒙语文本信息翻译成中文文本信息；要素提取子引擎识别中文文本信息所包含的要素信息，包含人名、地名、事务、组织信息，并且根据提取出来的人名、地名、事务得到对应的要素组织信息；意图分类子引擎根据中文文本信息的主题、内容和属性，将中文文本信息归到一个或多个类别，识别文本信息中所表达的意图；内容分析预警子引擎通过建立基础库，结合人工经验战法模型，从关键词对中文文本信息进行打分预警，并按照分值高低排序，发现有害信息并提醒；通用模型研判识别子引擎通过建立通用模型对中文文本信息进行研判识别；自建分析研判模型子引擎通过对大数据的事件发生、发展趋势的分析、学习，形成具有针对性的事件分析研判模型，进行进一步研判；

所述图像类处理引擎通过图文识别子引擎提取数据仓库的涉及蒙语的图像数据，通过图像的OCR识别提取蒙语文本信息，之后由文本类处理引擎处理；所述图像类处理引擎还包括图像预警子引擎和人脸提取子引擎，检测涉及蒙语的图像数据是否存在人物、人群、游行、枪支、旗帜、色情、血腥、自焚、烧伤的场景，若存在图像预警子引擎进行预警提醒；所述人脸提取子引擎包括重点人像的知识库和人脸相似度识别引擎，通过知识库和人脸相似度识别引擎对比图像数据，实现重点人像的预警。

6.根据权利要求1所述的一种基于大数据技术的智慧互联网安全平台,其特征在于：

所述说话人分离引擎用于检测单条语音中哪些片段语音属于同一个说话人，对单条语音中包含人员进行自动识别，并根据识别不同人员，自动识别说话人片段信息，提取说话人特征，并采用说话人分离算法，分离出单个说话人语音；

所述声纹提取比对引擎基于库中已有的声纹数据，实现声纹的自动化分析比对，找出库中与提交的语音数据相似的数据，并将结果展现给用户；

所述声纹聚类引擎通过N：N聚类的算法，进行声纹的相似度检测，将属于同一个人说话的语音片段不断进行合并归类，最后属于同一个人说话的语音片段全部被归为一类；

所述声纹自动注册引擎将符合声纹注册标准的语音音频进行声纹特征注册，用于与未知身份语音进行声纹比对；

所述声纹识别引擎用于通过一段语音自动判断出说话人的身份；

所述特征库管理引擎用于利用声纹特征提取和自动聚类，针对多源语音数据形成稳定说话人声纹，建设全量声纹库；特征库管理引擎基于声纹闭环迭代更新技术手段，对全量声纹进行周期性纠偏。

7.根据权利要求1所述的一种基于大数据技术的智慧互联网安全平台,其特征在于：

8.根据权利要求1所述的一种基于大数据技术的智慧互联网安全平台,其特征在于：

所述声纹综合专项模块用于对声纹数据进行管理，包括声纹数据库、身份核查、海量数据布控、重点人员其他虚拟号码发掘和离线语音数据声纹；

9.根据权利要求1所述的一种基于大数据技术的智慧互联网安全平台,其特征在于：

所述特定数据分析模块用于通过批量数据导入，将原始数据结构化后，分析账号与群组、群成员之间的关系，发现关键节点；通过大数据算法、关键词命中对聊天内容进行预警；同时对系统内账号落查真实身份，录入系统中与虚拟身份进行关联，形成虚实档案库。

10.根据权利要求1所述的一种基于大数据技术的智慧互联网安全平台,其特征在于：

所述多媒体异常信息管理模块基于核心的机器翻译技术，实现面向小语种的文本数据翻译，同时结合OCR图文识别、智能语音识别技术，实现针对更多非结构化类型的数据分析；通过对海量文本数据进行文本的监控，进行有害信息预警，对大量事件发生、发展趋势的分析、学习，形成事件分析研判模型。