CN109033155A - 搜索邮件内容方法、装置、终端及存储介质 - Google Patents

搜索邮件内容方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN109033155A
CN109033155A CN201810606761.XA CN201810606761A CN109033155A CN 109033155 A CN109033155 A CN 109033155A CN 201810606761 A CN201810606761 A CN 201810606761A CN 109033155 A CN109033155 A CN 109033155A
Authority
CN
China
Prior art keywords
mail
mail contents
search
event type
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810606761.XA
Other languages
English (en)
Inventor
张博
王焮
胡罡
吴鹏
王丹辉
王宏
连礼泉
武文曦
杨欣欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronics Technology Group Corp CETC
Electronic Science Research Institute of CTEC
Original Assignee
China Electronics Technology Group Corp CETC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronics Technology Group Corp CETC filed Critical China Electronics Technology Group Corp CETC
Priority to CN201810606761.XA priority Critical patent/CN109033155A/zh
Publication of CN109033155A publication Critical patent/CN109033155A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种搜索邮件内容方法、装置、终端及存储介质,所述搜索方法包括:从网络数据中提取并存储邮件内容;提取所述邮件内容中的特征向量,将所述特征向量输入到预先构建的事件类型分类器中,利用所述事件类型分类器中预定义事件类型对所述邮件内容进行分类;根据所述分类得出用于进行相关邮件搜索的事件类型。本发明提出的搜索方法通过设定与调查案件相关的事件类型,灵活搜索不同类型案件的邮件内容,既保证了搜索的广度,又维持了搜索的方向不脱离指定调查方向,能够更高效快速地掌握邮件内容信息。

Description

搜索邮件内容方法、装置、终端及存储介质
技术领域
本发明涉及邮件搜索领域,尤其涉及一种搜索邮件内容方法、装置、终端及存储介质。
背景技术
移动通信技术、网络技术、信息技术的相互融合与交织发展,使得电子邮件在工作、生活中替代了传统书信成为了主要的书面通信载体。据统计平均一个企业员工每天四分之一的时间处理与邮件相关的业务,平均每天发信43封。且在涉及电子邮件取证调查的案件中,调查人员通过搜索邮件内容来寻找与调查事件相关的参与人、发生的事件、发生的时间等线索,需要详细了解邮件内容。目前多数调查通过关键字搜索结合人工处理的方式完成,由于关键字搜索获得大量与调查无关的命中结果所以检查效率不高,根据调查统计关键字搜索的技术水平在数字取证发展的最近三十年时间里没有显著的提高。因此待查的邮件数据规模通常使得调查工作面临资源(计算资源、人力资源)不足的困难,从而造成积压滞后,主要原因包括以下几点:
1)相关取证工具对于文本内容搜索效率不高。当前工具主要依赖相对简单的哈希及搜索算法限制了检查的效率。有限数量的关键词搜索(10-20个关键词)处理时间往往要耗费数天时间,重要证据常常被淹没在大量与案件相关度不高的命中结果中。
2)调查人员有限的认知处理能力妨碍取证调查的结果。随着案件涉及待检查、待分析的文本数据规模的增加,调查人员无法实现对所有的关键字命中结果完成详细的分析。
3)从海量数据中筛选信息从而推导得出结论的需求不仅仅只涉及数字取证研究领域。尽管其它领域已经广泛开展应用数据挖掘以及信息搜索技术解决类似的问题,但是目前致力将这些技术应用到数字取证调查中来的研究数量不多,应用到电子邮件的取证调查的数量更少。
目前采用事件识别进行邮件搜索,事件识别是事件提取任务的重要组成部分,事件识别(Event Detection)指从文本内容中发现特定事件类型的实例。与每个事件描述相关联的是引发事件的短语、触发词(通常是动词或名词化结构),因此可以更准确地将事件识别任务描述为识别事件的触发词并将其分类到特定的类别中。例如,在“The gunmanfired three bullets at the police”句子中,事件识别系统需要能够将“fired”归类为攻击事件的触发词。
现有事件识别采用的技术包括以下几个方面:
1)基于规则的方法,基于规则的系统通常采用正则表达式的形式制定规则,如果输入文本与某一规则匹配,则被归入相应的类。在自然语言处理中,应用基于规则的方法包括:分词(tokenization)、提取词干(stemming)和词性标注(Part-of-Speech tagging)。基于规则的方法虽然具有一定的优势,例如:规则制定开发时间短,不依赖标注好的训练数据,但只适用于小规模新出现的应用领域,且需要大量的人工干预等。
2)监督学习,通过已有数据自动提取规则或应用统计方法预测,可采用支持向量机、逻辑回归等。但是当特征空间很大时,逻辑回归的性能不是很好,容易欠拟合,一般准确度不太高。在处理数据上面的时间较慢,复杂度较高,在处理多分类的问题上面存在着不足,还需要在二分类的基础上自己构造多分类相关的算法,代价比较大。
3)混合方法,基于规则方法与机器学习方法结合,混合方法在自然语言处理的任务应用广泛,例如机器翻译、语法分析和信息抽取等。但是是监督学习算法中多种算法的组合,虽然两种算法能覆盖大部分的识别场景,但针对一些特殊的应用场景,还是无法更好的识别,而且场景限定比较严重。
4)词向量(word embedding),词向量是通过神经网络模型生成的词的低维实数向量表示,词向量中包含丰富的语义信息,在信息搜索、机器翻译、语音识别等自然语言处理任务中发挥关键作用。词向量有多种表示形式:One-hot Representation(单热点)、Distributed Representation(分布式表示),One-hot Representation即用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的位置。但是One-hot Representation会导致词语向量维度过大,容易发生维度灾难,尤其是将其用于Deep Learning的一些算法时;而DistributedRepresentation无法区分有相同上下文语境的反义词,不能很好地刻画词与词之间的相似性(“词汇鸿沟”)。
因此,上述事件识别方法均存在以下两个问题:相同的事件可能会被不同的触发词所表示和一个表示在不同语境下代表不同的事件。如何对海量的文本数据进行有效检查、减轻调查人员的工作负担已经成为亟待解决的关键问题。
发明内容
本发明实施例提供一种搜索邮件内容方法、装置、终端及存储介质,能够对海量文本数据进行有效检查并高效搜索。
依据本发明实施例的一个方面,提供一种搜索邮件内容方法,包括以下步骤:
从网络数据中提取并存储邮件内容;
提取所述邮件内容中的特征向量,将所述特征向量输入到预先构建的事件类型分类器中,利用所述事件类型分类器中预定义事件类型对所述邮件内容进行分类;
根据所述分类得出用于进行相关邮件搜索的事件类型。
可选地,本发明所述方法中,所述提取邮件内容中的特征向量,包括:
通过设定的第一神经网络提取所述邮件内容中词级特征,形成词级特征向量;通过设定的第二神经网络提取所述邮件内容中句子级别特征,形成句子级别特征向量;将所述词级特征向量与所述句子级别特征向量组成特征向量。
可选地,本发明所述方法中,所述第一神经网络包括:长短期记忆LTSM循环神经网络;
和/或,所述第二神经网络包括:卷积神经网络。
可选地,本发明所述方法中,所述从网络数据中提取并存储邮件内容,包括:
解析网络数据包提取并存储邮件传输协议数据包,以邮件格式存储邮件内容。
可选地,本发明所述方法中,在所述从网络数据中提取并存储邮件内容之后,还包括:
对所述邮件内容进行完整性校验。
可选地,本发明所述方法中,在所述提取邮件内容中的特征向量之前,还包括:
从存储邮件内容的文件夹中读取邮件信息,并按行输出到一个mbox格式文件进行预处理。
依据本发明的另一个方面,提供一种搜索邮件内容装置,包括:
信息采集模块,用于从网络数据中提取并存储邮件内容;
分类处理模块,用于提取所述邮件内容中的特征向量,将所述特征向量输入到预先构建的事件类型分类器中,利用所述事件类型分类器中预定义事件类型对所述邮件内容进行分类;
分类输出模块;根据所述分类得出用于进行相关邮件搜索的事件类型。
可选地,本发明所述装置中,所述分类训练模块,还用于通过设定的第一神经网络提取所述邮件内容中词级特征,形成词级特征向量;通过设定的第二神经网络提取所述邮件内容中句子级别特征,形成句子级别特征向量;将所述词级特征向量与所述句子级别特征向量组成特征向量。
依据本发明实施例的第三个方面,一种终端,包括:处理器、存储器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的搜索邮件内容程序,以实现如搜索邮件内容方法步骤。
依据本发明实施例的第四个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现搜索邮件内容方法步骤。
根据本发明提出的搜索邮件内容方法、装置、终端及存储介质,该搜索邮件内容方法通过预先构建的事件类型分类器识别出待测邮件的事件类别,利用事件类型高效搜索邮件内容,通过设定与调查案件相关的事件类型,灵活搜索不同类型案件的邮件内容,既保证了搜索的广度,又维持了搜索的方向不脱离指定调查方向,能够更高效快速地掌握邮件内容信息。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明第一实施例提供的搜索邮件内容方法的流程图;
图2为本发明第一实施例中提供的提取邮件内容中特征向量的流程图;
图3为本发明第二实施例提供的搜索邮件内容方法的流程图;
图4为本发明第三实施例提供的搜索邮件内容装置的结构框图;
图5为本发明第四实施例提供的搜索邮件内容装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本发明的第一实施例中,提供一种搜索邮件内容方法,如图1所示,包括如下步骤:
步骤S001:从网络数据中提取并存储邮件内容。
本发明实施例中,所述从网络数据中提取并存储邮件内容,包括:解析网络数据包提取并存储邮件传输协议数据包,以邮件格式存储邮件内容。
在本发明的一个具体实施例中,自动解析网络数据包提取并存储所有smtp协议数据包即解析网络数据包过程报告是否发现smtp数据包,描述邮件数据存储内容,邮件发信人、收信人,邮件内容及是否包含附件信息,并以msg格式存储每封邮件内容。
在本发明的又一可选实施例中,在所述从网络数据中提取并存储邮件内容之后,还包括:对所述邮件内容进行完整性校验。具体的,对所述邮件内容数据进行哈希计算生成校验值保证数据内容完整性。
步骤S002:提取所述邮件内容中的特征向量,将所述特征向量输入到预先构建的事件类型分类器中,利用所述事件类型分类器中预定义事件类型对所述邮件内容进行分类。
本发明实施例中,预先构建的事件类型分类器(softmax分类器),该分类器的构建首先需要根据已知的事件类型训练分类系统内部参数,最优化分类结果,通过word2vec算法构造预处理词向量作为邮件内容中各个词的向量,经过后续的训练,逐渐更新向量使词向量参数适合输出最优分类结果。已知的事件类型是根据调查案件类型,设计与案件相关的事件类型,如下表所示:
将调查案件事件类型分为:会面事件、行程事件、联络事件、交易事件,并设定相关事件触发词查找表。
本实施例中的word2vec算法:该算法是基于神经网络,输入为distributed表示的词向量,输出为语言模型的概率分布。首先,为训练出词向量,需要将所有语料保存在一个文本里;其次,扫描语料库,统计每个词出现的次数,保存在一个hash表里;再次,根据各词的词频建立哈夫曼树;第四,初始化词向量与哈夫曼树非叶子节点的向量;最后,训练,也就是迭代最优化。
根据标记好的语料进行分类训练,完成构造系统模型网络内部参数。具体的,通过程序设置,将各个事件类型分别采用不同数字或字母进行标记,将用数字标记好的事件类型作为训练文本数据输入到事件类型分类器中进行分类训练,从而得出训练好的预先构建的事件类型分类器。得到系统模型网络内部参数加权矩阵Wu,Wf,Wo,Wc,映射矩阵Iu,If,Io,Ic
本发明实施例中,所述提取邮件内容中的特征向量,包括:
通过设定的第一神经网络提取所述邮件内容中词级特征,形成词级特征向量;通过设定的第二神经网络提取所述邮件内容中句子级别特征,形成句子级别特征向量;将所述词级特征向量与所述句子级别特征向量组成特征向量。具体的,通过将所述词级特征向量与所述句子输入级别特征向量进行融合组成特征向量,之后该特征向量送入softmax分类器进行分类。
进一步地:所述第一神经网络包括:长短期记忆LTSM循环神经网络;和/或,所述第二神经网络包括:卷积神经网络。
在本发明的一个具体实施例中,参见图2所示,通过设定的长短期记忆LTSM循环神经网络提取所述邮件内容中词级特征,形成词级特征向量;通过设定的卷积神经网络提取所述邮件内容中句子级别特征,形成句子级别特征向量;将所述词级特征向量与所述句子级别特征向量组成特征向量。
循环神经网络是广泛应用在分析时序特征数据的分类算法。由于邮件(文本)内容中每个词按照一定顺序排列,因此采用循环神经网络来分析文本内容中的词级特征。而长短期记忆LSTM循环神经网络可以解决普通循环神经网络面临的梯度消失问题,因此本方法采用该长短期记忆LTSM循环神经网络效果更好。长短期记忆模型:LSTM(Long Short-TermMemory,简称LSTM)单元由记忆单元和多个调节门组成,LSTM使用记忆单元(memory cell)的状态(state)来保存历史信息。在此模型中,常规的神经元,即一个将S型激活应用于其输入线性组合的单位,被存储单元所代替。每个存储单元是与一个输入门、一个输出门和一个跨越时间步骤无干扰送入自身的内部状态相关联。当输入门关闭时,历史信息不受新的输入数据干扰,得以原样保存,类似的,只有输出门打开,记忆单元中的历史信息才起作用的。
长短期记忆LTSM循环神经网络的按如下公式操作提取特征:
gu=σ(Wuht-1+Iuxt)
gf=σ(Wfht-1+Ifxt)
go=σ(Woht-1+Ioxt)
gc=tanh(Wcht-1+Icxt)
mt=gf⊙mt-1+gu⊙gc
ht=tanh(go⊙mt)
其中σ是logistic sigmoid函数,⊙表示按位乘法,Wu,Wf,Wo,Wc表示加权矩阵,Iu,If,Io,Ic表示映射矩阵;X为样本,g为特征值;h为隐藏单元向量,m为存储向量,h、m二者控制长短期记忆模型的状态更新和输出。
卷积神经网络自动提取邮件内容中句子级别特征,形成句子级别特征向量。卷积循环网络算法过程分为Preprocess(预处理)、embedding(嵌入处理)、convolution(卷积处理)、pooling(池化处理)、output(输出)阶段。卷积神经网络模型(Convolutional NeuralNetworks,简称CNN):一般由一个或者多个卷积神经网络层以及最后一层全连接层组成,在每两层之间都会有一个Pooling层,同时每个神经元的激励函数都为sigmoid函数。卷积神经网络使用反向传播算法进行训练。
其中的卷积操作如下公式所示:
cij=f(wj·xi:i+h-1+b)
其中i、j分别为词向量中的行列参数,w为加权阵,b为偏置系数,h为隐藏单元向量,Cij表示使用卷积神经网络提取的特征。
池化操作采用:
c=max{cij}
其中,C表示通过最大值子采样方法获得的特征,即采用卷积神经网络提取的特征的最大值。
步骤S003:根据所述分类得出用于进行相关邮件搜索的事件类型。
本发明实施例中,报告每封邮件中发生的事件,采用softmax算法实现分类,公式如下所示:
其中,P为事件类型分类概率,X表示输入层x的向量,Y表示输出层y的向量,该分类模型结合开源库Tensorflow实现构造分类器,Tensorflow是一个开源的机器学习资源库,包括tensorflow,tensorboard,tensorserving等。Tensorflow可以高效地应用python语言实习机器学习算法,实现LSTM循环神经网络和卷积神经网络。
下面结合示例来说明本发明方法的实施过程。
为了验证本发明方法的技术效果,本实验使用forensicscontest竞赛中提供的数据包进行验证。
首先,提取网络数据包中数据,提取到SMTP数据并存储到相应文件夹。
其次,从所有文件夹中提取对应邮件内容到一个文件,方便分类。
最后,实现对邮件内容搜索获得相应事件类别,本实验从数据包中获得一封邮件内容,包括两个句子。因预先构建的事件类型分类器时将句子按事件类别:会面事件、行程事件、联络事件、交易事件,0、1、2、3类别标记输出。通过该分离器获得该邮件内容的中包含会面事件、行程事件。
本发明搜索邮件内容方法,通过识别邮件中的事件类别,自动快捷的进行邮件内容事件识别搜索,实现了高效搜索邮件内容。相对于现有的在预先指定的邮件内容执行关键字搜索方法,关键字设置会出现大量与案件无关信息。本发明方法自动化完成对邮件内容按各事件类型进行标记,给出邮件中是否出现与案件相关事件的标记,方便调查人员快速掌握邮件中的信息,快速筛选出与案件密切相关的邮件,提高了自动化程度。
在本发明的第二实施例中,提供一种搜索邮件内容方法,如图3所示,包括如下步骤:
步骤S100:从网络数据中提取并存储邮件内容。
步骤S200:从存储邮件内容的文件夹中读取邮件信息,并按行输出到一个mbox格式文件进行预处理。方便对邮件内容进行分类。
步骤S300:提取所述邮件内容中的特征向量,将所述特征向量输入到预先构建的事件类型分类器中,利用所述事件类型分类器中预定义事件类型对所述邮件内容进行分类。
步骤S400:根据所述分类得出用于进行相关邮件搜索的事件类型。
本发明实施例中,从网络流量解析提取smtp数据,将邮件内容按照msg保存,预处理邮件内容提取每条邮件内容作为分类器输入,分类算法提取特征并分类,输出结果为对每封邮件内容标记事件类别信息。
本发明实施例中的步骤S100、步骤S300和步骤S400与第一实施例中的步骤S001、步骤S002和步骤S003相同,故本实施例不在赘述。
在本发明的第三实施例中,提供一种搜索邮件内容装置,参见图4所示:包括:
信息采集模块1,用于从网络数据中提取并存储邮件内容;
本发明实施例中,该信息采集模块1用于从网络数据中提取并存储邮件内容,包括:解析网络数据包提取并存储邮件传输协议数据包,以邮件格式存储邮件内容。
在本发明的一个具体实施例中,自动解析网络数据包提取并存储所有smtp协议数据包即解析网络数据包过程报告是否发现smtp数据包,描述邮件数据存储内容,邮件发信人、收信人,邮件内容及是否包含附件信息,并以msg格式存储每封邮件内容。
在本发明的又一可选实施例中,该信息采集模块1还用于在所述从网络数据中提取并存储邮件内容之后,对所述邮件内容进行完整性校验。具体的,对所述邮件内容数据进行哈希计算生成校验值保证数据内容完整性。
分类处理模块2,用于提取所述邮件内容中的特征向量,将所述特征向量输入到预先构建的事件类型分类器中,利用所述事件类型分类器中预定义事件类型对所述邮件内容进行分类;
本发明实施例中,分类处理模块2中预先构建的事件类型分类器(softmax分类器),该分类器的构建首先需要根据已知的事件类型训练分类系统内部参数,最优化分类结果,通过word2vec算法构造预处理词向量作为邮件内容中各个词的向量,经过后续的训练,逐渐更新向量使词向量参数适合输出最优分类结果。已知的事件类型是根据调查案件类型,设计与案件相关的事件类型,
将调查案件事件类型分为:会面事件、行程事件、联络事件、交易事件,并设定相关事件触发词查找表。
本实施例中的word2vec算法:该算法是基于神经网络,输入为distributed表示的词向量,输出为语言模型的概率分布。首先,为训练出词向量,需要将所有语料保存在一个文本里;其次,扫描语料库,统计每个词出现的次数,保存在一个hash表里;再次,根据各词的词频建立哈夫曼树;第四,初始化词向量与哈夫曼树非叶子节点的向量;最后,训练,也就是迭代最优化。
根据标记好的语料进行分类训练,完成构造系统模型网络内部参数。具体的,通过程序设置,将各个事件类型分别采用不同数字或字母进行标记,将用数字标记好的事件类型作为训练文本数据输入到事件类型分类器中进行分类训练,从而得出训练好的预先构建的事件类型分类器。得到系统模型网络内部参数加权矩阵Wu,Wf,Wo,Wc,映射矩阵Iu,If,Io,Ic
本发明实施例中,分类处理模块2中提取邮件内容中的特征向量,包括:
通过设定的第一神经网络提取所述邮件内容中词级特征,形成词级特征向量;通过设定的第二神经网络提取所述邮件内容中句子级别特征,形成句子级别特征向量;将所述词级特征向量与所述句子级别特征向量组成特征向量。具体的,通过将所述词级特征向量与所述句子级别特征向量输入进行融合组成特征向量,之后该特征向量送入softmax分类器进行分类。
进一步地:所述第一神经网络包括:长短期记忆LTSM循环神经网络;和/或,所述第二神经网络包括:卷积神经网络。
在本发明的一个具体实施例中,通过设定的长短期记忆LTSM循环神经网络提取所述邮件内容中词级特征,形成词级特征向量;通过设定的卷积神经网络提取所述邮件内容中句子级别特征,形成句子级别特征向量;将所述词级特征向量与所述句子级别特征向量组成特征向量。
循环神经网络是广泛应用在分析时序特征数据的分类算法。由于邮件(文本)内容中每个词按照一定顺序排列,因此采用循环神经网络来分析文本内容中的词级特征。而长短期记忆LSTM循环神经网络可以解决普通循环神经网络面临的梯度消失问题,因此本方法采用该长短期记忆LTSM循环神经网络效果更好。长短期记忆模型:LSTM(Long Short-TermMemory,简称LSTM)单元由记忆单元和多个调节门组成,LSTM使用记忆单元(memory cell)的状态(state)来保存历史信息。在此模型中,常规的神经元,即一个将S型激活应用于其输入线性组合的单位,被存储单元所代替。每个存储单元是与一个输入门、一个输出门和一个跨越时间步骤无干扰送入自身的内部状态相关联。当输入门关闭时,历史信息不受新的输入数据干扰,得以原样保存,类似的,只有输出门打开,记忆单元中的历史信息才起作用的。
长短期记忆LTSM循环神经网络的按如下公式操作提取特征:
gu=σ(Wuht-1+Iuxt)
gf=σ(Wfht-1+Ifxt)
go=σ(Woht-1+Ioxt)
gc=tanh(Wcht-1+Icxt)
mt=gf⊙mt-1+gu⊙gc
ht=tanh(go⊙mt)
其中σ是logistic sigmoid函数,⊙表示按位乘法,Wu,Wf,Wo,Wc表示加权矩阵,Iu,If,Io,Ic表示映射矩阵;X为样本,g为特征值;h为隐藏单元向量,m为存储向量,h、m二者控制长短期记忆模型的状态更新和输出。
卷积神经网络自动提取邮件内容中句子级别特征,形成句子级别特征向量。卷积循环网络算法过程分为Preprocess(预处理)、embedding(嵌入处理)、convolution(卷积处理)、pooling(池化处理)、output(输出)阶段。卷积神经网络模型(Convolutional NeuralNetworks,简称CNN):一般由一个或者多个卷积神经网络层以及最后一层全连接层组成,在每两层之间都会有一个Pooling层,同时每个神经元的激励函数都为sigmoid函数。卷积神经网络使用反向传播算法进行训练。
其中的卷积操作如下公式所示:
cij=f(wj·xi:i+h-1+b)
其中i、j分别为词向量中的行列参数,w为加权阵,b为偏置系数,h为隐藏单元向量,cij表示使用卷积神经网络提取的特征。
池化操作采用:
c=max{cij}
其中,C表示通过最大值子采样方法获得的特征,即采用卷积神经网络提取的特征的最大值。
分类输出模块3;根据所述分类得出用于进行相关邮件搜索的事件类型。
本发明实施例中,报告每封邮件中发生的事件,采用softmax算法实现分类,公式如下所示:
其中,P为事件类型分类概率,X表示输入层x的向量,Y表示输出层y的向量,该分类模型结合开源库Tensorflow实现构造分类器,Tensorflow是一个开源的机器学习资源库,包括tensorflow,tensorboard,tensorserving等。Tensorflow可以高效地应用python语言实习机器学习算法,实现LSTM循环神经网络和卷积神经网络。
本发明搜索邮件内容方法,通过识别邮件中的事件类别,自动快捷的进行邮件内容事件识别搜索,实现了高效搜索邮件内容。
在本发明的第四实施例中,提供一种搜索邮件内容装置,参见图5所示,包括:信息采集模块1,分类处理模块2、分类输出模块3,还包括预处理模块4,用于从存储邮件内容的文件夹中读取邮件信息,并按行输出到一个mbox格式文件进行预处理。方便对邮件内容进行分类。
本实施例中的信息采集模块1,分类处理模块2、分类输出模块3与第三实施例中的信息采集模块1,分类处理模块2、分类输出模块3相同,故本实施例不在赘述。
本发明实施例中,从网络流量解析提取smtp数据,将邮件内容按照msg保存,预处理邮件内容提取每条邮件内容作为分类器输入,分类算法提取特征并分类,输出结果为对每封邮件内容标记事件类别信息。
在本发明的第五个实施例中,提供一种终端,包括:处理器、存储器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的搜索邮件内容程序,以实现如本发明第一实施例或者第二实施例方法步骤。
由于在第一、二实施例中已经对搜索邮件内容方法做了具体说明,本实施例在此不再赘述。
在本发明的第六个实施例中,提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明第一实施例或者第二实施例方法步骤。
由于在第一、二实施例中已经对搜索邮件内容方法做了具体说明,本实施例在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种搜索邮件内容方法,其特征在于,包括以下步骤:
从网络数据中提取并存储邮件内容;
提取所述邮件内容中的特征向量,将所述特征向量输入到预先构建的事件类型分类器中,利用所述事件类型分类器中预定义事件类型对所述邮件内容进行分类;
根据所述分类得出用于进行相关邮件搜索的事件类型。
2.如权利要求1所述的方法,其特征在于,所述提取邮件内容中的特征向量,包括:
通过设定的第一神经网络提取所述邮件内容中词级特征,形成词级特征向量;通过设定的第二神经网络提取所述邮件内容中句子级别特征,形成句子级别特征向量;将所述词级特征向量与所述句子级别特征向量组成特征向量。
3.如权利要求2所述的方法,其特征在于,
所述第一神经网络包括:长短期记忆LTSM循环神经网络;
和/或,所述第二神经网络包括:卷积神经网络。
4.如权利要求1所述的方法,其特征在于,所述从网络数据中提取并存储邮件内容,包括:
解析网络数据包提取并存储邮件传输协议数据包,以邮件格式存储邮件内容。
5.如权利要求1或4所述的方法,其特征在于,在所述从网络数据中提取并存储邮件内容之后,还包括:
对所述邮件内容进行完整性校验。
6.如权利要求1所述的方法,其特征在于,在所述提取邮件内容中的特征向量之前,还包括:
从存储邮件内容的文件夹中读取邮件信息,并按行输出到一个mbox格式文件进行预处理。
7.一种搜索邮件内容装置,其特征在于,包括:
信息采集模块,用于从网络数据中提取并存储邮件内容;
分类处理模块,用于提取所述邮件内容中的特征向量,将所述特征向量输入到预先构建的事件类型分类器中,利用所述事件类型分类器中预定义事件类型对所述邮件内容进行分类;
分类输出模块;根据所述分类得出用于进行相关邮件搜索的事件类型。
8.如权利要求7所述的装置,其特征在于,所述分类训练模块,还用于通过设定的第一神经网络提取所述邮件内容中词级特征,形成词级特征向量;通过设定的第二神经网络提取所述邮件内容中句子级别特征,形成句子级别特征向量;将所述词级特征向量与所述句子级别特征向量组成特征向量。
9.一种终端,其特征在于,包括:处理器、存储器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的搜索邮件内容程序,以实现如权利要求1至6任意一项所述方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至6任意一项所述方法步骤。
CN201810606761.XA 2018-06-13 2018-06-13 搜索邮件内容方法、装置、终端及存储介质 Pending CN109033155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810606761.XA CN109033155A (zh) 2018-06-13 2018-06-13 搜索邮件内容方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810606761.XA CN109033155A (zh) 2018-06-13 2018-06-13 搜索邮件内容方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN109033155A true CN109033155A (zh) 2018-12-18

Family

ID=64609191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810606761.XA Pending CN109033155A (zh) 2018-06-13 2018-06-13 搜索邮件内容方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN109033155A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446299A (zh) * 2018-08-27 2019-03-08 中国科学院信息工程研究所 基于事件识别的搜索电子邮件内容的方法及系统
CN109800433A (zh) * 2019-01-24 2019-05-24 深圳市小满科技有限公司 基于邮件二分类模型的建档方法、装置、电子设备及介质
CN110138723A (zh) * 2019-03-25 2019-08-16 中国科学院信息工程研究所 一种邮件网络中恶意社区的确定方法及系统
CN110704611A (zh) * 2019-08-08 2020-01-17 国家计算机网络与信息安全管理中心 基于特征解交织的非法文本识别方法及装置
CN111177421A (zh) * 2019-12-30 2020-05-19 论客科技(广州)有限公司 一种面向数字人文的电子邮件历史事件轴生成方法及装置
CN114547315A (zh) * 2022-04-25 2022-05-27 湖南工商大学 一种案件分类预测方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361015A (zh) * 2014-10-14 2015-02-18 四川神琥科技有限公司 一种邮件分类识别方法
CN105574538A (zh) * 2015-12-10 2016-05-11 小米科技有限责任公司 分类模型训练方法及装置
CN106453033A (zh) * 2016-08-31 2017-02-22 电子科技大学 基于邮件内容的多层次邮件分类方法
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法
CN108038189A (zh) * 2017-12-11 2018-05-15 南京茂毓通软件科技有限公司 一种电子邮件的信息提取系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361015A (zh) * 2014-10-14 2015-02-18 四川神琥科技有限公司 一种邮件分类识别方法
CN105574538A (zh) * 2015-12-10 2016-05-11 小米科技有限责任公司 分类模型训练方法及装置
CN106453033A (zh) * 2016-08-31 2017-02-22 电子科技大学 基于邮件内容的多层次邮件分类方法
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法
CN108038189A (zh) * 2017-12-11 2018-05-15 南京茂毓通软件科技有限公司 一种电子邮件的信息提取系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446299A (zh) * 2018-08-27 2019-03-08 中国科学院信息工程研究所 基于事件识别的搜索电子邮件内容的方法及系统
CN109446299B (zh) * 2018-08-27 2022-08-16 中国科学院信息工程研究所 基于事件识别的搜索电子邮件内容的方法及系统
CN109800433A (zh) * 2019-01-24 2019-05-24 深圳市小满科技有限公司 基于邮件二分类模型的建档方法、装置、电子设备及介质
CN109800433B (zh) * 2019-01-24 2023-11-10 深圳市小满科技有限公司 基于邮件二分类模型的建档方法、装置、电子设备及介质
CN110138723A (zh) * 2019-03-25 2019-08-16 中国科学院信息工程研究所 一种邮件网络中恶意社区的确定方法及系统
CN110138723B (zh) * 2019-03-25 2020-05-12 中国科学院信息工程研究所 一种邮件网络中恶意社区的确定方法及系统
CN110704611A (zh) * 2019-08-08 2020-01-17 国家计算机网络与信息安全管理中心 基于特征解交织的非法文本识别方法及装置
CN110704611B (zh) * 2019-08-08 2022-08-19 国家计算机网络与信息安全管理中心 基于特征解交织的非法文本识别方法及装置
CN111177421A (zh) * 2019-12-30 2020-05-19 论客科技(广州)有限公司 一种面向数字人文的电子邮件历史事件轴生成方法及装置
WO2021136318A1 (zh) * 2019-12-30 2021-07-08 论客科技(广州)有限公司 一种面向数字人文的电子邮件历史事件轴生成方法及装置
CN114547315A (zh) * 2022-04-25 2022-05-27 湖南工商大学 一种案件分类预测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109033155A (zh) 搜索邮件内容方法、装置、终端及存储介质
CN112257066B (zh) 面向带权异质图的恶意行为识别方法、系统和存储介质
Rajapaksha et al. Bert, xlnet or roberta: the best transfer learning model to detect clickbaits
CN110580292A (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN115794999B (zh) 一种基于扩散模型的专利文档查询方法及计算机设备
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及系统
CN109308319A (zh) 文本分类方法、文本分类装置和计算机可读存储介质
CN113806547B (zh) 一种基于图模型的深度学习多标签文本分类方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN109800309A (zh) 课堂话语类型分类方法及装置
CN108536838A (zh) 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
Parvathi et al. Identifying relevant text from text document using deep learning
Krivosheev et al. Business entity matching with siamese graph convolutional networks
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN115796635A (zh) 基于大数据和机器学习的银行数字化转型成熟度评价系统
Chen et al. Incremental learning for text document classification
CN114428855A (zh) 用于分级体系和混合数据类型的业务记录分类方法
CN112434516B (zh) 一种融合正文文本信息的自适应评论情感分析系统及方法
Haque et al. Sentiment analysis in low-resource bangla text using active learning
CN113537345B (zh) 一种通信网设备数据关联的方法及系统
Situmorang et al. Classification system of indonesian language thesis documents in computer science depar fitment using K-means algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218