CN117993878A - 一种邮件分析方法、系统及可读存储介质 - Google Patents

一种邮件分析方法、系统及可读存储介质 Download PDF

Info

Publication number
CN117993878A
CN117993878A CN202410249108.8A CN202410249108A CN117993878A CN 117993878 A CN117993878 A CN 117993878A CN 202410249108 A CN202410249108 A CN 202410249108A CN 117993878 A CN117993878 A CN 117993878A
Authority
CN
China
Prior art keywords
mail
analysis
flow
data
analyzing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410249108.8A
Other languages
English (en)
Inventor
程俊
李文飞
冯君豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Write Easy Network Technology Shanghai Co ltd
Original Assignee
Write Easy Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Write Easy Network Technology Shanghai Co ltd filed Critical Write Easy Network Technology Shanghai Co ltd
Priority to CN202410249108.8A priority Critical patent/CN117993878A/zh
Publication of CN117993878A publication Critical patent/CN117993878A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种邮件分析方法和系统,所述方法包括:数据导入流程、数据预处理流程、邮件分析流程、简报生产流程;所述系统包括:数据导入模块、数据预处理模块、邮件分析模块、简报生产模块。本发明提供的技术方案,整合原始邮件、文档、图片素材,集翻译、分析、生产为一体,形成一套基于人工智能的邮件分析方法,能够实现大量邮件数据的一站式分析,提高邮件数据分析处理的广度、深度和效率;构建健全的数据分析流程,全面地提升信息分析能力,为有效履行维护国家安全和社会稳定提供有力技术支撑。

Description

一种邮件分析方法、系统及可读存储介质
技术领域
本发明涉及邮件分析领域,尤其涉及一种邮件分析方法。
背景技术
互联网的产生和迅速发展改变了世界的沟通方式和人们的生活,互联网的使用人数越来越多,各种应用层出不穷,网络世界与现实世界差异越来越小。
业务单位获取到的“多国家”、“多地区”、“多结构”的邮件数据类型越来越多,邮件数据分析过程存在以下问题:分析难度大,信息数据整合、融合的难度也越来越大。
发明内容
鉴于目前技术存在的上述不足,本发明提供一种邮件分析方法,整合原始邮件、文档、图片素材,集翻译、分析、生产为一体,形成一套基于人工智能的邮件分析方法,能够实现大量邮件数据的一站式分析,提高邮件数据分析处理的广度、深度和效率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种邮件分析方法,其特征在于,包括:
通过对多种类型数据进行批量导入和存储形成数据导入流程;
通过对多源异构数据进行预处理形成数据预处理流程;
通过对邮件数据进行处理分析形成邮件分析流程。
依照本发明的一个方面,所述对多种类型数据进行批量导入和存储包括以下步骤:
通过根据业务逻辑进行案件层级管理形成新建案件层级流程;
通过根据案件层级和数据来源建立案件对象形成新建案件对象流程;
通过批量导入数据形成数据批量导入流程;
通过对数据进行加密存储形成数据加密存储流程。
依照本发明的一个方面,所述批量导入数据包括批量导入邮件、文档、图片,上传文件夹支持嵌套,同时支持多种格式混合上传。
依照本发明的一个方面,所述对多源异构数据进行预处理包括以下步骤:
通过利用预训练模型抽取邮件、文档、图片中的文本实体信息形成实体抽取流程;
通过利用神经网络训练的模型进行语种翻译形成语种翻译流程;
通过解析邮件、文档、图片的文件内容形成数据解析流程;
通过检测文件是否加密形成加密识别流程;
通过使用病毒扫描引擎对上传的数据进行病毒查杀形成病毒过滤流程;
通过计算文件MD5、去除重复文件形成MD5去重流程。
依照本发明的一个方面,所述解析邮件、文档、图片的文件内容至少包括:
解析邮件中的邮件要素信息;
解析文档中的文本内容、图片内容;
利用OCR识别图片中的文本内容。
依照本发明的一个方面,所述对邮件数据进行处理分析至少包括以下步骤:
通过对邮件内容进行解析,分离出邮件要素,并将邮件要素进行分词索引实现检索形成邮件解析查询流程;
通过使用翻译引擎对邮件要素信息进行批量翻译,对邮件翻译的原文和译文进行分屏比对分析形成邮件翻译流程;
通过使用过滤条件对邮件进行分析形成邮件过滤流程;
通过标记收藏邮件,对邮件内容进行标签分类,对已收藏的邮件进行汇总分析形成标签收藏流程;
通过根据偏好设置筛选邮件形成偏好分析流程;
通过分析邮件附件,对邮件中的加密附件进行筛选和识别形成附件分析流程;
通过对邮件的收发人往来关系进行分析形成往来关系分析流程;
通过对邮件发送来源进行IP定位分析形成IP定位分析流程;
通过对邮件发送的时间进行时间线分析形成时序分析流程;
通过利用实体提取规则抽取邮件中的实体信息进行分析形成实体抽取分析流程;
通过对邮件中出现的图片进行分析形成邮件图片分析流程。
依照本发明的一个方面,所述对邮件的收发人往来关系进行分析至少包括:根据目标对象邮件、联系频次、特定时间段联系的过滤条件进行往来关系分析。
依照本发明的一个方面,所述对邮件发送的时间进行时间线分析至少包括:根据时间段和敏感区域进行邮件分析。
依照本发明的一个方面,所述对邮件中出现的图片进行分析至少包括:对图片进行溯源,查找相似图片,图片人脸检测,以图搜图,分析照片GPS位置、相机拍摄信息。
依照本发明的一个方面,所述邮件分析方法还包括:
通过分发任务、生产简报并进行分析形成简报生产流程。
依照本发明的一个方面,所述分发任务、生产简报并进行分析包括以下步骤:
通过组建任务小组,将数据分析处理任务进行分发和处理形成协同作战流程;
通过将标记和收藏的邮件进行摘要生成形成摘要提取流程;
通过利用历史简报训练出的模型自动生成简报形成简报生成流程;
通过对生成的简报进行修改形成简报编辑流程;
通过对编写完成的简报进行审批形成简报审批流程;
通过对业务人员的简报编写情况进行业绩统计和考核形成业绩考核流程。
一种邮件分析系统,基于如上所述的邮件分析方法,包括:
数据导入模块,所述数据导入模块用于实现数据导入流程;
数据预处理模块,所述数据预处理模块用于实现数据预处理流程;
邮件分析模块,所述邮件分析模块用于实现邮件分析流程。
所述邮件分析系统还包括:
简报生产模块,所述简报生产模块用于实现简报生产流程。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被执行时实现如上所述的邮件分析方法的步骤。
本发明实施的优点:
本发明提供的一种邮件分析方法,整合原始邮件、文档、图片素材,集翻译、分析、生产为一体,形成一套基于人工智能的邮件分析方法,能够实现大量邮件数据的一站式分析,提高邮件数据分析处理的广度、深度和效率。
数据导入流程通过案件层级和对象化一人一档的管理,提升数据的管理效率。将数据和目标对象、组织、部门、国家进行关联累积,发挥数据治理的长期效果。同时数据导入流程支持并发高速上传导入,大大减少数据导入的时间。
数据预处理流程通过提前勾选实体抽取、语种翻译、数据解析、加密识别、病毒过滤和MD5去重等配置实现数据预处理,在业务人员正式分析之前完成大部分的解析翻译工作,有利于提升分析过程的实时性和快速响应。
邮件分析流程给业务人员提供集邮件解析查询、邮件翻译、分屏比对、邮件过滤、收藏标签、偏好去重、附件和加密附件分析、往来关系分析、IP定位分析、时序分析、实体抽取分析、邮件图片分析为一体的综合数据分析,实现一站式的邮件数据分析效果。
简报生产流程,通过协同作战、摘要提取、简报生成、简报在线编辑、简报审批和业绩考核大大提升业务单位的产出效率。
本申请提供的技术方案,构建健全的数据分析流程,全面地提升信息分析能力,为有效履行维护国家安全和社会稳定提供有力技术支撑。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述的一种邮件分析方法的流程图;
图2为本发明所述的一种邮件分析方法的数据导入流程的步骤;
图3为本发明所述的一种邮件分析方法的数据预处理流程的步骤;
图4为本发明所述的一种邮件分析方法的邮件分析流程的步骤;
图5为本发明所述的一种邮件分析方法的流程图;
图6为本发明所述的一种邮件分析方法的简报生产流程的步骤;
图7为本发明所述的一种邮件分析系统的结构示意图;
图8为本发明所述的一种邮件分析系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例采用如下技术方案:
实施例一
一种邮件分析方法,通过使用开发的邮件分析系统来实现,如图1所示,包括:
通过对多种类型数据进行批量导入和存储形成S1数据导入流程;
通过对多源异构数据进行预处理形成S2数据预处理流程;
通过对邮件数据进行处理分析形成S3邮件分析流程。
如图2所示,所述对多种类型数据进行批量导入和存储包括以下步骤:
通过根据业务逻辑进行案件层级管理形成S11新建案件层级流程;
通过根据案件层级和数据来源建立案件对象形成S12新建案件对象流程;
通过批量导入数据形成S13数据批量导入流程;
通过对数据进行加密存储形成S14数据加密存储流程。
S11新建案件层级流程:包括根据业务逻辑进行案件层级管理。
系统采用多层二叉树结构设计案件层级管理,系统初始层级为最高案件层级。可以根据业务单位的工作需求,新建第一层级为数据的来源国家、国别,新建第二层级为数据来源部门、单位,新建第三层级为数据来源时间。通过合理的数据结构,结合业务逻辑,方便地实现案件层级管理。
S12新建案件对象流程:包括根据案件层级和数据来源建立案件对象。
系统采用案件对象的一人一档,完善数据来源,对目标对象实现精细化管理。案件对象为数据来源的归属者,通过案件对象的一人一档,逐步累积对象档案详细信息。对象信息包含姓名、性别、英文名、备注名、邮箱、机构、职务、工作履历、家庭关系、社会关系等,可以自定义增加字段属性。
S13数据批量导入流程:批量导入数据。
所述批量导入数据包括批量导入邮件、文档、图片,上传文件夹支持嵌套,同时支持多种格式混合上传。
采用邮件文件夹、压缩包、单个文件等方式实现邮件批量导入;所述邮件格式包括eml、box、pst、ost、nsf、zip、rar、tar、tar.gz等。邮件批量导入需要提供邮件类型、选择文件或文件夹、数据批次名称等必要参数。
采用文档文件夹、压缩包、单个文件等方式实现邮件批量导入;所述文档格式包括doc/docx、xls/xlsx、ppt/pptx、pdf、rtf、txt、htm/html、zip、rar、tar、tar.gz等。文档批量导入需要提供文档类型、选择文件或文件夹、数据批次名称等必要参数。
采用图片文件夹、压缩包、单个文件等方式实现图片批量导入;所述图片格式包括jpg/jpeg、bmp、png、tif、gif、zip、rar、tar、tar.gz等。图片批量导入需要提供图片类型、选择文件或文件夹、数据批次名称等必要参数。
S14数据加密存储流程:对数据进行加密存储。
所述数据加密存储,包括:数据通过浏览器加密上传到服务端,系统采用分布式文件系统实现数据文件的加密存储。每个数据文件默认保存三副本,保障数据访问的高速访问和安全冗余。在数据分片丢失的情况下,自动扩展文件备份,实现高可用的业务效果。
如图3所示,所述对多源异构数据进行预处理包括以下步骤:
通过利用预训练模型抽取邮件、文档、图片中的文本实体信息形成S21实体抽取流程;
通过利用神经网络训练的模型进行语种翻译形成S22语种翻译流程;
通过解析邮件、文档、图片的文件内容形成S23数据解析流程;
通过检测文件是否加密形成S24加密识别流程;
通过使用病毒扫描引擎对上传的数据进行病毒查杀形成S25病毒过滤流程;
通过计算文件MD5、去除重复文件形成S26 MD5去重流程。
S21实体抽取流程:利用预训练模型抽取邮件、文档、图片中的文本实体信息。
实体抽取环节通过预训练模型准确抽取邮件、文档、图片中的文本实体信息,具体包括人名、路名、机构名、地名、MAC地址、IP地址、集装箱号、QQ号、微信号、Facebook、推特帐号等。通过配置实体信息内容和格式,可以自定义训练增加。
S22语种翻译流程:利用神经网络训练的模型进行语种翻译。
语种翻译环节通过神经网络训练的模型实现离线环境下的语种翻译。受限于安全保密等要求,业务单位无法将业务数据传输到互联网翻译,因此需要使用神经网络训练的离线翻译引擎。具体翻译内容包含文本、文档、图片OCR以及图片渲染等服务。语种翻译支持英语、日语、韩语、法语、西班牙语、葡萄牙语、俄语、德语、越南语、阿拉伯语、印尼语、意大利语、荷兰语、泰语等主流语种到中文的翻译。
S23数据解析流程:解析邮件、文档、图片的文件内容。
所述解析邮件、文档、图片的文件内容至少包括:
解析邮件中的邮件要素信息;
解析文档中的文本内容、图片内容;
利用OCR识别图片中的文本内容。
数据解析环节主要完成对邮件、文档、图片等类型的文件内容解析。邮件解析包括主题、收发件人、抄送暗送、发送时间、正文、附件等解析。文档解析包含文本内容、图片内容解析和OCR。图片解析包括图片文本OCR等内容解析。
S24加密识别流程:检测文件是否加密。
加密识别环节主要检测文件是否加密。加密识别的范围包括邮件附件是否加密、文档是否加密、rar/zip/tar/tar.gz等压缩文件是否加密等。加密文件识别后会提供单独标记,后续业务人员查看有带锁的图标,便于解密分析。
S25病毒过滤流程:使用病毒扫描引擎对上传的数据进行病毒查杀。
病毒过滤环节通过对上传的邮件、文档、图片等数据使用病毒扫描引擎进行病毒查杀。系统内置病毒库对所有邮件附件、文档捆绑、邮件内容挂马等高危位置进行特征库扫描,发现有病毒的文件及时预警和隔离,防止感染病毒传播到内网。
S26 MD5去重流程:计算文件MD5、去除重复文件。
在业务工作过程中,无法针对多批次的文件进行整理了去重。因此本系统设计了MD5去重功能,在所有文件导入时自动计算MD5,如果多批次导入过程中出现相同的文件,则提示MD5去重,确保同一个文件只分析一次,提高业务效率。
如图4所示,所述对邮件数据进行处理分析至少包括以下步骤:
通过对邮件内容进行解析,分离出邮件要素,并将邮件要素进行分词索引实现检索形成S301邮件解析查询流程;
通过使用翻译引擎对邮件要素信息进行批量翻译,对邮件翻译的原文和译文进行分屏比对分析形成S302邮件翻译流程;
通过使用过滤条件对邮件进行分析形成S303邮件过滤流程;
通过标记收藏邮件,对邮件内容进行标签分类,对已收藏的邮件进行汇总分析形成S304标签收藏流程;
通过根据偏好设置筛选邮件形成S305偏好分析流程;
通过分析邮件附件,对邮件中的加密附件进行筛选和识别形成S306附件分析流程;
通过对邮件的收发人往来关系进行分析形成S307往来关系分析流程;
通过对邮件发送来源进行IP定位分析形成S308 IP定位分析流程;
通过对邮件发送的时间进行时间线分析形成S309时序分析流程;
通过利用实体提取规则抽取邮件中的实体信息进行分析形成S310实体抽取分析流程;
通过对邮件中出现的图片进行分析形成S311邮件图片分析流程。
S301邮件解析查询流程:对邮件内容进行解析,分离出邮件要素,并将邮件要素进行分词索引实现检索。
系统在邮件解析过程中,对原始邮件包括eml、box、pst、ost、nsf等主流邮件格式进行邮件内容解析,分离出邮件主题、发送时间、收发件人、抄送暗送、邮件正文、邮件附件等要素。并将邮件各要素进行分词索引,实现快速高效的检索效果。
S302邮件翻译流程:使用翻译引擎对邮件要素信息进行批量翻译,对邮件翻译的原文和译文进行分屏比对分析。
系统将上一步邮件解析的结果通过安全加密的API接口访问翻译引擎,将同一数据批次的邮件要素信息进行批量翻译,同时保存邮件的原文和翻译后的译文两种结果,原文和译文通过文档的格式保存到分布式对象存储中,便于后续的预览和下载。
系统提供邮件翻译的原文和译文分屏比对分析,在分屏比对环节,系统在左侧展示邮件原文的主题、发件人、收件人、时间、附件、正文,右侧展示邮件译文的主题、发件人、收件人、时间、附件、正文。分屏比对流程有助于业务人员对原译文的翻译对照和翻译效果进行细粒度的对比预览,有利于更好地理解邮件上下文。
S303邮件过滤流程:使用过滤条件对邮件进行分析。
在邮件过滤环节,系统提供多个过滤条件协助业务人员进行分析,包括勾选已读、未读状态,邮件未翻译、已翻译状态,邮件是否包含附件,邮件是否包含加密附件,邮件是否已收藏等。这些过滤条件便于业务人员方便的筛选包含重要特征的邮件信息。
S304标签收藏流程:标记收藏邮件,对邮件内容进行标签分类,对已收藏的邮件进行汇总分析。
在收藏标签环节,业务人员分析过程中遇到与实际业务方向紧密相关的邮件,系统支持收藏操作,收藏完成后可以单独对已收藏的邮件进行汇总分析,编写报告。同时系统支持对邮件内容进行标签分类,如反恐、电诈、盗窃等,可以对重要邮件进行归类分析。
S305偏好分析流程:根据偏好设置筛选邮件。
业务人员可以根据自己的偏好去设置哪些邮件需要看,哪些邮件不需要看。如业务人员只关注重点国家方向或者指定事件相关的邮件,可以通过偏好设置筛选出感兴趣的邮件列表。如果业务人员对某些类别的邮件不感兴趣,如广告邮件、信用卡账单等邮件,可以通过偏好设置屏蔽这些邮件,节省工作时间。同时,系统支持的邮件去重操作可以在邮件列表中把重复邮件进行隐藏,避免重复的分析工作。
S306附件分析流程:分析邮件附件,对邮件中的加密附件进行筛选和识别。
系统支持把所有邮件的附件全部提取进行统一展示,业务人员可以在附件视图中详细分析邮件附件,包括附件名称、大小、属性、内容检索,以及附件预览、下载、翻译、比对等操作。
业务人员可以对邮件中的所有加密附件进行筛选和识别。邮件中的加密附件往往包含重要敏感信息,需要业务人员重点关注。系统支持对加密附件的哈希提取,通过提取加密哈希信息,可以发送到解密中心进行哈希解密。加密哈希信息中只包含与文件密码相关的信息,不包含文件内容信息,因此加密哈希信息可以在解密中心联网加密,通过掩码、字典、碰撞解密等方式进行密码破解。
S307往来关系分析流程:对邮件的收发人往来关系进行分析。
所述对邮件的收发人往来关系进行分析至少包括:根据目标对象邮件、联系频次、特定时间段联系的过滤条件进行往来关系分析。
业务人员可以对邮件的收发件人、抄送、暗送、密送等关系进行分析。系统支持输入目标对象邮件、联系频次过滤条件进行往来关系过滤,同时支持对最近一年、半年、三个月、一个月或者特定时间段联系过的往来联系人对象进行关系分析。具体分析出的关系往来次数,支持通过点击次数查看往来邮件列表详情,提供进一步分析。
S308 IP定位分析流程:对邮件发送来源进行IP定位分析。
业务人员可以对邮件发送来源进行IP定位。IP定位分析通过提取邮件原始文件头中的IP信息,结合系统内置的离线IP库进行位置查询,具体根据IP来源可定位到某个国家、某个城市、某个区域或者街道。IP定位分析有助于业务人员以地图的方式排查邮件来源,梳理信息渠道。
S309时序分析流程:对邮件发送的时间进行时间线分析。
所述对邮件发送的时间进行时间线分析至少包括:根据时间段和敏感区域进行邮件分析。
业务人员可以对邮件发送的时间进行时间线分析。时序分析通过提取邮件原始文件中的发送时间进行精确排序,根据业务人员所关注的时间段和敏感区域进行特定时间范围内的邮件分析。根据业务人员提供的时间段,如年份、月份或者指定日期,统计指定时间的邮件发送情况,点击邮件数量支持快速查询邮件列表和邮件溯源。
S310实体抽取分析流程:利用实体提取规则抽取邮件中的实体信息进行分析。
业务人员可以通过对预先配置的实体提取规则自动地发掘邮件数据中的实体信息。实体抽取通过神经网络训练的方式实现对人名、路名、地名、机构名、MAC地址、IP地址、集装箱号、社交网络帐号等实体信息提取。业务人员也可以提供自定义的规则和样本,在现有实体抽取训练模型的基础上再次增加训练。
S311邮件图片分析流程:对邮件中出现的图片进行分析。
所述对邮件中出现的图片进行分析至少包括:对图片进行溯源,查找相似图片,图片人脸检测,以图搜图,分析照片GPS位置、相机拍摄信息。
业务人员可以对邮件内容中出现的图片以及邮件附件中出现的图片进行综合分析。邮件图片分析支持对图片的来源进行原始邮件溯源。邮件图片分析支持查找相似图片、图片人脸检测、指定人脸以图搜图,以及对手机拍摄的图片分析照片GPS位置、相机拍摄信息等。
实施例二
一种邮件分析方法,通过使用开发的邮件分析系统来实现,如图5所示,包括:
通过对多种类型数据进行批量导入和存储形成S1数据导入流程;
通过对多源异构数据进行预处理形成S2数据预处理流程;
通过对邮件数据进行处理分析形成S3邮件分析流程;
通过分发任务、生产简报并进行分析形成S4简报生产流程。
如图2所示,所述对多种类型数据进行批量导入和存储包括以下步骤:
通过根据业务逻辑进行案件层级管理形成S11新建案件层级流程;
通过根据案件层级和数据来源建立案件对象形成S12新建案件对象流程;
通过批量导入数据形成S13数据批量导入流程;
通过对数据进行加密存储形成S14数据加密存储流程。
S11新建案件层级流程:包括根据业务逻辑进行案件层级管理。
系统采用多层二叉树结构设计案件层级管理,系统初始层级为最高案件层级。可以根据业务单位的工作需求,新建第一层级为数据的来源国家、国别,新建第二层级为数据来源部门、单位,新建第三层级为数据来源时间。通过合理的数据结构,结合业务逻辑,方便地实现案件层级管理。
S12新建案件对象流程:包括根据案件层级和数据来源建立案件对象。
系统采用案件对象的一人一档,完善数据来源,对目标对象实现精细化管理。案件对象为数据来源的归属者,通过案件对象的一人一档,逐步累积对象档案详细信息。对象信息包含姓名、性别、英文名、备注名、邮箱、机构、职务、工作履历、家庭关系、社会关系等,可以自定义增加字段属性。
S13数据批量导入流程:批量导入数据。
所述批量导入数据包括批量导入邮件、文档、图片,上传文件夹支持嵌套,同时支持多种格式混合上传。
采用邮件文件夹、压缩包、单个文件等方式实现邮件批量导入;所述邮件格式包括eml、box、pst、ost、nsf、zip、rar、tar、tar.gz等。邮件批量导入需要提供邮件类型、选择文件或文件夹、数据批次名称等必要参数。
采用文档文件夹、压缩包、单个文件等方式实现邮件批量导入;所述文档格式包括doc/docx、xls/xlsx、ppt/pptx、pdf、rtf、txt、htm/html、zip、rar、tar、tar.gz等。文档批量导入需要提供文档类型、选择文件或文件夹、数据批次名称等必要参数。
采用图片文件夹、压缩包、单个文件等方式实现图片批量导入;所述图片格式包括jpg/jpeg、bmp、png、tif、gif、zip、rar、tar、tar.gz等。图片批量导入需要提供图片类型、选择文件或文件夹、数据批次名称等必要参数。
S14数据加密存储流程:对数据进行加密存储。
所述数据加密存储,包括:数据通过浏览器加密上传到服务端,系统采用分布式文件系统实现数据文件的加密存储。每个数据文件默认保存三副本,保障数据访问的高速访问和安全冗余。在数据分片丢失的情况下,自动扩展文件备份,实现高可用的业务效果。
如图3所示,所述对多源异构数据进行预处理包括以下步骤:
通过利用预训练模型抽取邮件、文档、图片中的文本实体信息形成S21实体抽取流程;
通过利用神经网络训练的模型进行语种翻译形成S22语种翻译流程;
通过解析邮件、文档、图片的文件内容形成S23数据解析流程;
通过检测文件是否加密形成S24加密识别流程;
通过使用病毒扫描引擎对上传的数据进行病毒查杀形成S25病毒过滤流程;
通过计算文件MD5、去除重复文件形成S26 MD5去重流程。
S21实体抽取流程:利用预训练模型抽取邮件、文档、图片中的文本实体信息。
实体抽取环节通过预训练模型准确抽取邮件、文档、图片中的文本实体信息,具体包括人名、路名、机构名、地名、MAC地址、IP地址、集装箱号、QQ号、微信号、Facebook、推特帐号等。通过配置实体信息内容和格式,可以自定义训练增加。
S22语种翻译流程:利用神经网络训练的模型进行语种翻译。
语种翻译环节通过神经网络训练的模型实现离线环境下的语种翻译。受限于安全保密等要求,业务单位无法将业务数据传输到互联网翻译,因此需要使用神经网络训练的离线翻译引擎。具体翻译内容包含文本、文档、图片OCR以及图片渲染等服务。语种翻译支持英语、日语、韩语、法语、西班牙语、葡萄牙语、俄语、德语、越南语、阿拉伯语、印尼语、意大利语、荷兰语、泰语等主流语种到中文的翻译。
S23数据解析流程:解析邮件、文档、图片的文件内容。
所述解析邮件、文档、图片的文件内容至少包括:
解析邮件中的邮件要素信息;
解析文档中的文本内容、图片内容;
利用OCR识别图片中的文本内容。
数据解析环节主要完成对邮件、文档、图片等类型的文件内容解析。邮件解析包括主题、收发件人、抄送暗送、发送时间、正文、附件等解析。文档解析包含文本内容、图片内容解析和OCR。图片解析包括图片文本OCR等内容解析。
S24加密识别流程:检测文件是否加密。
加密识别环节主要检测文件是否加密。加密识别的范围包括邮件附件是否加密、文档是否加密、rar/zip/tar/tar.gz等压缩文件是否加密等。加密文件识别后会提供单独标记,后续业务人员查看有带锁的图标,便于解密分析。
S25病毒过滤流程:使用病毒扫描引擎对上传的数据进行病毒查杀。
病毒过滤环节通过对上传的邮件、文档、图片等数据使用病毒扫描引擎进行病毒查杀。系统内置病毒库对所有邮件附件、文档捆绑、邮件内容挂马等高危位置进行特征库扫描,发现有病毒的文件及时预警和隔离,防止感染病毒传播到内网。
S26 MD5去重流程:计算文件MD5、去除重复文件。
在业务工作过程中,无法针对多批次的文件进行整理了去重。因此本系统设计了MD5去重功能,在所有文件导入时自动计算MD5,如果多批次导入过程中出现相同的文件,则提示MD5去重,确保同一个文件只分析一次,提高业务效率。
如图4所示,所述对邮件数据进行处理分析至少包括以下步骤:
通过对邮件内容进行解析,分离出邮件要素,并将邮件要素进行分词索引实现检索形成S301邮件解析查询流程;
通过使用翻译引擎对邮件要素信息进行批量翻译,对邮件翻译的原文和译文进行分屏比对分析形成S302邮件翻译流程;
通过使用过滤条件对邮件进行分析形成S303邮件过滤流程;
通过标记收藏邮件,对邮件内容进行标签分类,对已收藏的邮件进行汇总分析形成S304标签收藏流程;
通过根据偏好设置筛选邮件形成S305偏好分析流程;
通过分析邮件附件,对邮件中的加密附件进行筛选和识别形成S306附件分析流程;
通过对邮件的收发人往来关系进行分析形成S307往来关系分析流程;
通过对邮件发送来源进行IP定位分析形成S308 IP定位分析流程;
通过对邮件发送的时间进行时间线分析形成S309时序分析流程;
通过利用实体提取规则抽取邮件中的实体信息进行分析形成S310实体抽取分析流程;
通过对邮件中出现的图片进行分析形成S311邮件图片分析流程。
S301邮件解析查询流程:对邮件内容进行解析,分离出邮件要素,并将邮件要素进行分词索引实现检索。
系统在邮件解析过程中,对原始邮件包括eml、box、pst、ost、nsf等主流邮件格式进行邮件内容解析,分离出邮件主题、发送时间、收发件人、抄送暗送、邮件正文、邮件附件等要素。并将邮件各要素进行分词索引,实现快速高效的检索效果。
S302邮件翻译流程:使用翻译引擎对邮件要素信息进行批量翻译,对邮件翻译的原文和译文进行分屏比对分析。
系统将上一步邮件解析的结果通过安全加密的API接口访问翻译引擎,将同一数据批次的邮件要素信息进行批量翻译,同时保存邮件的原文和翻译后的译文两种结果,原文和译文通过文档的格式保存到分布式对象存储中,便于后续的预览和下载。
系统提供邮件翻译的原文和译文分屏比对分析,在分屏比对环节,系统在左侧展示邮件原文的主题、发件人、收件人、时间、附件、正文,右侧展示邮件译文的主题、发件人、收件人、时间、附件、正文。分屏比对流程有助于业务人员对原译文的翻译对照和翻译效果进行细粒度的对比预览,有利于更好地理解邮件上下文。
S303邮件过滤流程:使用过滤条件对邮件进行分析。
在邮件过滤环节,系统提供多个过滤条件协助业务人员进行分析,包括勾选已读、未读状态,邮件未翻译、已翻译状态,邮件是否包含附件,邮件是否包含加密附件,邮件是否已收藏等。这些过滤条件便于业务人员方便的筛选包含重要特征的邮件信息。
S304标签收藏流程:标记收藏邮件,对邮件内容进行标签分类,对已收藏的邮件进行汇总分析。
在收藏标签环节,业务人员分析过程中遇到与实际业务方向紧密相关的邮件,系统支持收藏操作,收藏完成后可以单独对已收藏的邮件进行汇总分析,编写报告。同时系统支持对邮件内容进行标签分类,如反恐、电诈、盗窃等,可以对重要邮件进行归类分析。
S305偏好分析流程:根据偏好设置筛选邮件。
业务人员可以根据自己的偏好去设置哪些邮件需要看,哪些邮件不需要看。如业务人员只关注重点国家方向或者指定事件相关的邮件,可以通过偏好设置筛选出感兴趣的邮件列表。如果业务人员对某些类别的邮件不感兴趣,如广告邮件、信用卡账单等邮件,可以通过偏好设置屏蔽这些邮件,节省工作时间。同时,系统支持的邮件去重操作可以在邮件列表中把重复邮件进行隐藏,避免重复的分析工作。
S306附件分析流程:分析邮件附件,对邮件中的加密附件进行筛选和识别。
系统支持把所有邮件的附件全部提取进行统一展示,业务人员可以在附件视图中详细分析邮件附件,包括附件名称、大小、属性、内容检索,以及附件预览、下载、翻译、比对等操作。
业务人员可以对邮件中的所有加密附件进行筛选和识别。邮件中的加密附件往往包含重要敏感信息,需要业务人员重点关注。系统支持对加密附件的哈希提取,通过提取加密哈希信息,可以发送到解密中心进行哈希解密。加密哈希信息中只包含与文件密码相关的信息,不包含文件内容信息,因此加密哈希信息可以在解密中心联网加密,通过掩码、字典、碰撞解密等方式进行密码破解。
S307往来关系分析流程:对邮件的收发人往来关系进行分析。
所述对邮件的收发人往来关系进行分析至少包括:根据目标对象邮件、联系频次、特定时间段联系的过滤条件进行往来关系分析。
业务人员可以对邮件的收发件人、抄送、暗送、密送等关系进行分析。系统支持输入目标对象邮件、联系频次过滤条件进行往来关系过滤,同时支持对最近一年、半年、三个月、一个月或者特定时间段联系过的往来联系人对象进行关系分析。具体分析出的关系往来次数,支持通过点击次数查看往来邮件列表详情,提供进一步分析。
S308 IP定位分析流程:对邮件发送来源进行IP定位分析。
业务人员可以对邮件发送来源进行IP定位。IP定位分析通过提取邮件原始文件头中的IP信息,结合系统内置的离线IP库进行位置查询,具体根据IP来源可定位到某个国家、某个城市、某个区域或者街道。IP定位分析有助于业务人员以地图的方式排查邮件来源,梳理信息渠道。
S309时序分析流程:对邮件发送的时间进行时间线分析。
所述对邮件发送的时间进行时间线分析至少包括:根据时间段和敏感区域进行邮件分析。
业务人员可以对邮件发送的时间进行时间线分析。时序分析通过提取邮件原始文件中的发送时间进行精确排序,根据业务人员所关注的时间段和敏感区域进行特定时间范围内的邮件分析。根据业务人员提供的时间段,如年份、月份或者指定日期,统计指定时间的邮件发送情况,点击邮件数量支持快速查询邮件列表和邮件溯源。
S310实体抽取分析流程:利用实体提取规则抽取邮件中的实体信息进行分析。
业务人员可以通过对预先配置的实体提取规则自动地发掘邮件数据中的实体信息。实体抽取通过神经网络训练的方式实现对人名、路名、地名、机构名、MAC地址、IP地址、集装箱号、社交网络帐号等实体信息提取。业务人员也可以提供自定义的规则和样本,在现有实体抽取训练模型的基础上再次增加训练。
S311邮件图片分析流程:对邮件中出现的图片进行分析。
所述对邮件中出现的图片进行分析至少包括:对图片进行溯源,查找相似图片,图片人脸检测,以图搜图,分析照片GPS位置、相机拍摄信息。
业务人员可以对邮件内容中出现的图片以及邮件附件中出现的图片进行综合分析。邮件图片分析支持对图片的来源进行原始邮件溯源。邮件图片分析支持查找相似图片、图片人脸检测、指定人脸以图搜图,以及对手机拍摄的图片分析照片GPS位置、相机拍摄信息等。
如图6所示,所述分发任务、生产简报并进行分析包括以下步骤:
通过组建任务小组,将数据分析处理任务进行分发和处理形成S41协同作战流程;
通过将标记和收藏的邮件进行摘要生成形成S42摘要提取流程;
通过利用历史简报训练出的模型自动生成简报形成S43简报生成流程;
通过对生成的简报进行修改形成S44简报编辑流程;
通过对编写完成的简报进行审批形成S45简报审批流程;
通过对业务人员的简报编写情况进行业绩统计和考核形成S46业绩考核流程。
S41协同作战流程:组建任务小组,将数据分析处理任务进行分发和处理。
系统支持将数据分析处理任务通过组建任务小组的方式进行平均分发,让多个业务人员同时处理。比如突然来了10万个文件,组建20人的任务小组,每人平均分配五千个文件处理任务,业务人员各自处理自己的数据,通过收藏、标签、标记进行分析汇总,达到协同作战的目的。
S42摘要提取流程:将标记和收藏的邮件进行摘要生成。
系统将协同作战步骤所标记和收藏的重点邮件进行摘要生成。通过大模型的摘要生成算法提取重要邮件的核心内容和中心思想,协助业务人员进一步发掘与重点业务方向相关联的关键信息。
S43简报生成流程:利用历史简报训练出的模型自动生成简报。
通过导入大量的历史简报库对模型进行训练,实现简报自动生成的业务效果。由业务人员制定输入数据的范围,以问答模板的方式向大模型提问,生成关于指定目标对象、指定事件等业务简报。
S44简报编辑流程:对生成的简报进行修改。
可以针对大模型生成的简报进行修改,业务人员利用大模型生成简报后,可以针对当前目标对象和事件增加一些自己的总结和想法,帮助完善形成最终的简报。系统提供在线编辑功能,可以在生成的简报中执行拼写检查、扩写、润色等等。同时支持对大模型生成的简报进行打分和优化反馈,帮助提升大模型的编写能力。
S45简报审批流程:对编写完成的简报进行审批。
支持对最终编写完成的简报发起审批流程,审批流程一般是发起者、发起者科室部门领导、处级领导、分局领导三级审批,审批完成后即可最终上报。如果在某个环节审批不通过,则可以提出修改意见重新修改完善后再次提交审批。
S46业绩考核流程:对业务人员的简报编写情况进行业绩统计和考核。
可以针对业务人员的年底简报编写情况进行业绩统计和考核。一是数据处理记录,二是简报编写情况,三是简报审核通过正式采编情况,三种绩效数据作为最终的业绩考核综合指标。
实施例三
一种邮件分析系统,基于如实施例一所述的邮件分析方法,如图7所示,包括:
数据导入模块1,所述数据导入模块1用于实现数据导入流程;
数据预处理模块2,所述数据预处理模块2用于实现数据预处理流程;
邮件分析模块3,所述邮件分析模块3用于实现邮件分析流程。
实施例四
一种邮件分析系统,基于如实施例二所述的邮件分析方法,如图8所示,包括:
数据导入模块1,所述数据导入模块1用于实现数据导入流程;
数据预处理模块2,所述数据预处理模块2用于实现数据预处理流程;
邮件分析模块3,所述邮件分析模块3用于实现邮件分析流程;
简报生产模块4,所述简报生产模块4用于实现简报生产流程。
实施例五
本实施例对本发明提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与如上所述的邮件分析方法可以相互参照。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被执行时实现如上所述的邮件分析方法的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种邮件分析方法,其特征在于,包括:
通过对多种类型数据进行批量导入和存储形成数据导入流程;
通过对多源异构数据进行预处理形成数据预处理流程;
通过对邮件数据进行处理分析形成邮件分析流程。
2.根据权利要求1所述的一种邮件分析方法,其特征在于,所述对多种类型数据进行批量导入和存储包括以下步骤:
通过根据业务逻辑进行案件层级管理形成新建案件层级流程;
通过根据案件层级和数据来源建立案件对象形成新建案件对象流程;
通过批量导入数据形成数据批量导入流程;
通过对数据进行加密存储形成数据加密存储流程。
3.根据权利要求2所述的一种邮件分析方法,其特征在于,所述批量导入数据包括批量导入邮件、文档、图片,上传文件夹支持嵌套,同时支持多种格式混合上传。
4.根据权利要求1所述的一种邮件分析方法,其特征在于,所述对多源异构数据进行预处理包括以下步骤:
通过利用预训练模型抽取邮件、文档、图片中的文本实体信息形成实体抽取流程;
通过利用神经网络训练的模型进行语种翻译形成语种翻译流程;
通过解析邮件、文档、图片的文件内容形成数据解析流程;
通过检测文件是否加密形成加密识别流程;
通过使用病毒扫描引擎对上传的数据进行病毒查杀形成病毒过滤流程;
通过计算文件MD5、去除重复文件形成MD5去重流程。
5.根据权利要求4所述的一种邮件分析方法,其特征在于,所述解析邮件、文档、图片的文件内容至少包括:
解析邮件中的邮件要素信息;
解析文档中的文本内容、图片内容;
利用OCR识别图片中的文本内容。
6.根据权利要求1所述的一种邮件分析方法,其特征在于,所述对邮件数据进行处理分析至少包括以下步骤:
通过对邮件内容进行解析,分离出邮件要素,并将邮件要素进行分词索引实现检索形成邮件解析查询流程;
通过使用翻译引擎对邮件要素信息进行批量翻译,对邮件翻译的原文和译文进行分屏比对分析形成邮件翻译流程;
通过使用过滤条件对邮件进行分析形成邮件过滤流程;
通过标记收藏邮件,对邮件内容进行标签分类,对已收藏的邮件进行汇总分析形成标签收藏流程;
通过根据偏好设置筛选邮件形成偏好分析流程;
通过分析邮件附件,对邮件中的加密附件进行筛选和识别形成附件分析流程;
通过对邮件的收发人往来关系进行分析形成往来关系分析流程;
通过对邮件发送来源进行IP定位分析形成IP定位分析流程;
通过对邮件发送的时间进行时间线分析形成时序分析流程;
通过利用实体提取规则抽取邮件中的实体信息进行分析形成实体抽取分析流程;
通过对邮件中出现的图片进行分析形成邮件图片分析流程。
7.根据权利要求6所述的一种邮件分析方法,其特征在于,所述对邮件的收发人往来关系进行分析至少包括:根据目标对象邮件、联系频次、特定时间段联系的过滤条件进行往来关系分析。
8.根据权利要求6所述的一种邮件分析方法,其特征在于,所述对邮件发送的时间进行时间线分析至少包括:根据时间段和敏感区域进行邮件分析。
9.根据权利要求6所述的一种邮件分析方法,其特征在于,所述对邮件中出现的图片进行分析至少包括:对图片进行溯源,查找相似图片,图片人脸检测,以图搜图,分析照片GPS位置、相机拍摄信息。
10.根据权利要求1所述的一种邮件分析方法,其特征在于,所述邮件分析方法还包括:
通过分发任务、生产简报并进行分析形成简报生产流程。
11.根据权利要求10所述的一种邮件分析方法,其特征在于,所述分发任务、生产简报并进行分析包括以下步骤:
通过组建任务小组,将数据分析处理任务进行分发和处理形成协同作战流程;
通过将标记和收藏的邮件进行摘要生成形成摘要提取流程;
通过利用历史简报训练出的模型自动生成简报形成简报生成流程;
通过对生成的简报进行修改形成简报编辑流程;
通过对编写完成的简报进行审批形成简报审批流程;
通过对业务人员的简报编写情况进行业绩统计和考核形成业绩考核流程。
12.一种邮件分析系统,其特征在于,基于权利要求1至11所述的邮件分析方法,包括:
数据导入模块,所述数据导入模块用于实现数据导入流程;
数据预处理模块,所述数据预处理模块用于实现数据预处理流程;
邮件分析模块,所述邮件分析模块用于实现邮件分析流程。
13.根据权利要求12所述的一种邮件分析系统,其特征在于,所述邮件分析系统还包括:
简报生产模块,所述简报生产模块用于实现简报生产流程。
14.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被执行时实现如权利要求1至11所述的邮件分析方法的步骤。
CN202410249108.8A 2024-03-05 2024-03-05 一种邮件分析方法、系统及可读存储介质 Pending CN117993878A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410249108.8A CN117993878A (zh) 2024-03-05 2024-03-05 一种邮件分析方法、系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410249108.8A CN117993878A (zh) 2024-03-05 2024-03-05 一种邮件分析方法、系统及可读存储介质

Publications (1)

Publication Number Publication Date
CN117993878A true CN117993878A (zh) 2024-05-07

Family

ID=90893130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410249108.8A Pending CN117993878A (zh) 2024-03-05 2024-03-05 一种邮件分析方法、系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN117993878A (zh)

Similar Documents

Publication Publication Date Title
US9058581B2 (en) Systems and methods for managing information associated with legal, compliance and regulatory risk
US9063985B2 (en) Method, system, apparatus, program code and means for determining a redundancy of information
JP5879260B2 (ja) マイクロブログメッセージの内容を分析する方法及び装置
US7761427B2 (en) Method, system, and computer program product for processing and converting electronically-stored data for electronic discovery and support of litigation using a processor-based device located at a user-site
US8548997B1 (en) Discovery information management system
US8996481B2 (en) Method, system, apparatus, program code and means for identifying and extracting information
US8762191B2 (en) Systems, methods, apparatus, and schema for storing, managing and retrieving information
US20050044037A1 (en) Systems and methods for automated political risk management
US7519587B2 (en) Method, system, apparatus, program code, and means for determining a relevancy of information
US20070208762A1 (en) Mapping parent/child electronic files contained in a compound electronic file to a file class
CN112463726A (zh) 一种移动财务票据的自动化归档方法
US20070112921A1 (en) Mapping electronic files contained in an electronic mail file to a file class
US20070109608A1 (en) Mapping parent/child electronic files contained in a compound electronic file to a file class
CN113221535B (zh) 情报处理方法、装置、计算机设备和存储介质
Raghavan et al. Eliciting file relationships using metadata based associations for digital forensics
US20070208761A1 (en) Mapping electronic files contained in an electronic mail file to a file class
CN117993878A (zh) 一种邮件分析方法、系统及可读存储介质
CN116401432A (zh) 一种数字化档案加工管理系统及方法
RU2549515C2 (ru) Способ выявления персональных данных открытых источников неструктурированной информации
Al-Nabki et al. Short text classification approach to identify child sexual exploitation material
US20070198594A1 (en) Transferring electronic file constituents contained in an electronic compound file using a forensic file copy
Kahvedžić Digital forensics and the DSAR effect
CN114840776B (zh) 一种数据发布源收录的方法、装置、电子设备及存储介质
Herschler et al. The" paperless office": A case study of the State Department's Foreign Affairs Information System
Ardi et al. Web-scale content reuse detection (extended)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination