CN110505144A - 邮件分类方法、装置、设备及存储介质 - Google Patents

邮件分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110505144A
CN110505144A CN201910732924.3A CN201910732924A CN110505144A CN 110505144 A CN110505144 A CN 110505144A CN 201910732924 A CN201910732924 A CN 201910732924A CN 110505144 A CN110505144 A CN 110505144A
Authority
CN
China
Prior art keywords
mail
text
model
sorted
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910732924.3A
Other languages
English (en)
Inventor
万里霞
潘浩
梁苑文
张荣圣
蒋杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Digital Life Technology Co Ltd
Original Assignee
CENTURY DRAGON INFORMATION NETWORK Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CENTURY DRAGON INFORMATION NETWORK Co Ltd filed Critical CENTURY DRAGON INFORMATION NETWORK Co Ltd
Priority to CN201910732924.3A priority Critical patent/CN110505144A/zh
Publication of CN110505144A publication Critical patent/CN110505144A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种邮件分类方法、装置、设备及存储介质,属于计算机技术领域。该方法包括获取待分类邮件,该待分类邮件包括邮件文本;根据集成学习模型对该邮件文本进行识别,获取该集成学习模型输出的类别标签,该集成学习模型是由集成学习算法融合多个机器学习模型得到的;根据该类别标签,输出该待分类邮件的分类结果。本申请实施例提供的技术方案提高了邮件分类的精度。

Description

邮件分类方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种邮件分类方法、装置、设备及存储介质。
背景技术
通常情况下,用户的电子邮箱会收到各种类型邮件,如广告邮件、账单邮件、电子发票邮件、工作邮件、信安邮件和垃圾邮件等。随着时间的积累,邮件类型和数量不断增多,当用户查找指定类型的邮件时,需要耗费大量时间和精力去筛选。随之出现了对用户电子邮箱中的各种类型邮件进行分类的技术。
相关技术中,可以利用基于文本规则匹配的方法实现对各种类型邮件的分类。该方法具体操作是:对邮件文本进行分词,然后与现有规则词库进行匹配来识别各种类型邮件。
然而,该方案过度依赖于人工添加和更新规则,其中,人工添加和更新规则的过程容易出现人为失误,这些人为失误会导致规则词库中的规则不准确,继而影响利用规则词库对邮件进行分类的准确性,因此,利用相关技术对邮件进行分类存在着分类精度不高的问题。
发明内容
基于此,有必要对邮件分类精度不高的问题提供一种邮件分类的方法、装置、设备及存储介质。
第一方面,提供了一种邮件处理方法,该方法包括:
获取待分类邮件,该待分类邮件包括邮件文本;根据集成学习模型对该邮件文本进行识别,获取该集成学习模型输出的类别标签,该集成学习模型是由集成学习算法融合多个机器学习模型得到的;根据该类别标签,输出该待分类邮件的分类结果。
在其中一个实施例中,在根据该集成学习模型对邮件文本进行识别之前,该方法还包括:将邮件文本输入至词袋模型,获取该词袋模型输出的该邮件文本的文本向量;
对应地,根据该集成学习模型对该邮件文本进行识别,包括:将该邮件文本的文本向量输入至该集成学习模型。
在其中一个实施例中,在将该邮件文本输入至该词袋模型之前,该方法还包括:对该邮件文本进行分词处理,得到该邮件文本包括的多个词语;
对应地,将该邮件文本输入至该词袋模型,包括:将该邮件文本包括的多个词语输入至该词袋模型。
在其中一个实施例中,在根据该集成学习模型对该邮件文本进行识别之前,该方法还包括:获取多个训练文本向量;利用该多个训练文本向量对多个机器学习模型进行训练,获得训练后的多个机器学习模型;利用堆栈泛化成学习算法将该训练后的多个机器学习模型进行融合,获得该集成学习模型。
在其中一个实施例中,该多个机器学习模型包括:线性分类支持向量机模型、极端梯度提升决策树分类模型、梯度提升决策树分类模型和随机森林分类模型中的至少两个。
在其中一个实施例中,该词袋模型和该集成学习模型由对象序列化工具存储为本地文件,在将该邮件文本输入至该词袋模型之前,该方法还包括:利用该对象序列化工具加载该本地文件。
在其中一个实施例中,获取该待分类邮件,包括:利用套接字进程通信方式,接收多个电子邮件客户端并行发送的多个该待分类邮件。
第二方面,提供了一种邮件分类装置,该装置包括:
第一获取模块,用于获取待分类邮件,该待分类邮件包括邮件文本;
识别模块,用于根据集成学习模型对邮件文本进行识别,获取该集成学习模型输出的类别标签,该集成学习模型是由集成学习算法融合多个机器学习模型得到的;
输出模块,用于根据类别标签,输出待分类邮件的分类结果。
在其中一个实施例中,该装置还包括第二获取模块;
其中,该第二获取模块,用于将该邮件文本输入至词袋模型,获取该词袋模型输出的该邮件文本的文本向量。
对应的,该识别模块,具体用于将该邮件文本的文本向量输入至该集成学习模型。
在其中一个实施例中,该装置还包括分词模块;
该分词模块,用于对该邮件文本进行分词处理,得到该邮件文本包括的多个词语。
对应地,该第二获取模块,具体用于将该邮件文本包括的多个词语输入至该词袋模型。
在其中一个实施例中,该装置还包括训练模块;
该训练模块,用于获取多个训练文本向量;利用该多个训练文本向量对多个机器学习模型进行训练,获得训练后的多个机器学习模型;利用堆栈泛化集成学习算法将该训练后的多个机器学习模型进行融合,获得该集成学习模型。
在其中一个实施例中,该多个机器学习模型包括:线性分类支持向量机模型、极端梯度提升决策树分类模型、梯度提升决策树分类模型和随机森林分类模型中的至少两个。
在其中一个实施例中,该词袋模型和该集成学习模型由对象序列化工具存储为本地文件,该装置还包括加载模块;
该加载模块,用于利用对象序列化工具加载该本地文件。
在其中一个实施例中,该第一获取模块,具体用于:利用套接字多进程通信方式,接收多个邮件客户端并行发送的多个该待分类邮件。
第三方面,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该计算机程序被该处理器执行时实现上述第一方面任一所述的邮件分类方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面任一所述的邮件分类方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过获取待分类邮件,然后根据集成学习模型对该待分类邮件的邮件文本进行识别,获取该集成学习模型输出的类别标签,其中,该集成学习模型是由集成学习算法融合多个机器学习模型得到的,接着,根据该类别标签,输出该待分类邮件的分类结果。由于利用集成学习模型对邮件进行分类的过程不需要依赖规则词库,也就不需要依赖人工添加和更新规则,因此,可以规避人为失误,故而,本申请实施例提供的邮件分类方法可以提高对邮件分类的精度。
附图说明
图1为本申请实施例提供的一种邮件分类方法的实施环境的示意图;
图2为本申请实施例提供的另一种邮件分类方法的流程图;
图3为本申请实施例提供的另一种邮件分类方法的流程图;
图4为本申请实施例提供的另一种邮件分类方法的流程图;
图5为本申请实施例提供的一种集成学习模型训练方法的流程图;
图6为本申请实施例提供的一种邮件分类装置的框图;
图7为本申请实施例提供的另一种邮件分类装置的框图;
图8为本申请实施例提供的一种计算机设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
电子邮箱是用户在互联网上用以收发邮件的应用,当前,电子邮箱的使用已经十分普及。实际应用中,用户的电子邮箱会收到多种类型的邮件,例如广告邮件、账单邮件、电子发票邮件、工作邮件、信安邮件和垃圾邮件等。随着时间的积累,用户电子邮箱中的邮件越来越多,当用户需要查找指定类型的邮件时,会耗费一定的时间和精力,若用户电子邮箱中的邮件能够被分类,且其分类结果以可视化的方式展示在用户电子邮箱中,会节省用户查找指定类型的邮件的时间和精力,因此需要对用户电子邮箱中的邮件进行分类。
相关技术中出现了很多对邮件进行分类的方法,其中,基于文本匹配规则的方法就是一种常见的对邮件进行分类的方法。
其中,基于文本匹配规则方法具体包括:对邮件中的邮件文本进行分词,然后与现有规则词库进行匹配来识别各种类型邮件,由于该方法中的规则词库过度依赖人工添加和更新规则,其中,人工添加和更新规则的过程容易出现人为失误,这些人为失误会导致规则词库中的规则不准确,继而影响利用规则词库对邮件进行分类的准确性,因此,利用相关技术对邮件进行分类存在着分类精度不高的问题。
本申请实施例提供了一种邮件分类的方法、装置、设备及存储介质,可以提高对邮件分类的精度。
在本申请实施例提供的邮件分类方法中,通过获取待分类邮件,然后根据集成学习模型对该待分类邮件的邮件文本进行识别,获取该集成学习模型输出的类别标签,其中,该集成学习模型是由集成学习算法融合多个机器学习模型得到的,接着,根据该类别标签,输出该待分类邮件的分类结果。由于利用集成学习模型对邮件进行分类的过程不需要依赖规则词库,也就不需要依赖人工添加和更新规则,因此,可以规避人为失误,故而,本申请实施例提供的邮件分类方法可以提高对邮件分类的精度。
下面,将对本申请实施例提供的邮件分类方法所涉及到的实施环境进行简要说明。
图1为本申请实施例提供的一种实施环境的示意图。如图1所示,该实施环境可以包括服务器101和终端102,其中,服务器101和终端102可以通过有线或者无线的方式进行通信。
在图1所示的实施环境中,终端102中可以安装有电子邮件客户端,终端102可以基于电子邮件客户端获取待分类邮件,在获取到待分类邮件之后,终端102可以将该待分类邮件发送至服务器101,以由服务器101对该待分类邮件执行本申请实施例提供的邮件分类方法。
需要指出的是,在一些可能的实现方式中,本申请实施例提供的邮件分类方法所涉及到的实施环境可以仅包括终端102。在实施环境仅包括终端102的情况下,终端102可以在获取到待分类邮件之后,对该待分类邮件执行本申请实施例提供的邮件分类方法。
还需要指出的是,在一些可能的实现方式中,本申请实施例提供的邮件分类方法所涉及到的实施环境可以仅包括服务器101。在实施环境仅包括服务器101的情况下,服务器101可以维护一数据库,该数据库中可以存储有待分类邮件,服务器101可以对数据库中存储的待分类邮件执行本申请实施例提供的邮件分类方法。
请参考图2,其示出了本申请实施例提供的一种邮件分类方法的流程图,该邮件分类方法可以应用于上述的实施环境中的服务器或者终端中(下文统一称为计算机设备)。如图2所示,该邮件分类方法可以包括以下步骤:
步骤201、计算机设备获取待分类邮件,该待分类邮件包括邮件文本。
邮件文本指的是待分类邮件包括的文字信息,在一些可能的情况下,邮件文本除了包括文字信息以外,还可以包括图像信息、声音信息、链接信息和格式化数据信息等。
如上文所述,计算机设备可以为终端,也可以为服务器。
在计算机设备为终端的情况下,该终端中可以安装有电子邮件客户端,该电子邮件客户端可以在终端本地存储有邮件,终端可以从本地中存储的邮件中获取待分类邮件,并在后续步骤中对该待分类邮件进行分类。
在计算机设备为服务器的情况下,在一种可能的实现方式中,服务器可以接收终端发送的待分类邮件,其中,终端发送的待分类邮件可以是终端中安装的电子邮件客户端在终端本地存储的邮件,在后续步骤中,服务器可以对该待分类邮件进行分类;在另一种可能的实现方式中,服务器可以维护一邮件数据库,服务器可以接收终端发送的待分类邮件的标识,其中,该待分类邮件的标识可以是待分类邮件的发件人、待分类邮件的收件人以及待分类邮件的主题等用于唯一标识待分类邮件的数据,服务器在接收到该待分类邮件的标识之后,可以根据该待分类邮件的标识从邮件数据库中查询得到待分类邮件,并在后续步骤中对该待分类邮件进行分类;在又一种可能的实现方式中,服务器可以维护一邮件数据库,服务器可以将该邮件数据库中未被分类的邮件获取为待分类邮件,并在后续步骤中对该待分类邮件进行分类。
步骤202、计算机设备根据集成学习模型对邮件文本进行识别,获取该集成学习模型输出的类别标签,该集成学习模型是由集成学习算法融合多个机器学习模型得到的。
类别标签是待分类邮件所属类别的标记,本实施例中的类别标签可以包括:广告邮件标签、账单邮件标签、电子发票邮件标签、工作邮件标签、信安邮件标签和垃圾邮件标签中的至少一种。
集成学习模型是使用一系列学习器进行学习,并使用某种规则把各个学习器的学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习模型。一般情况下,集成学习模型中的多个学习器都是同质的弱学习器。其中步骤202中提到的多个机器学习模型就是上述的弱学习器。
通常情况下,单一的机器学习模型只对少数特定类型的邮件文本有较高的识别精度,因此在邮件类型较多时,单一的机器学习模型往往不能对邮件类型进行精准识别。在本实施例中,该集成学习模型是由集成学习算法融合多个机器学习模型得到的,相当于该集成学习模型同时具备了多个机器学习模型的优点,所以该集成学习模型在邮件类型较多时,比单一机器学习模型对邮件类型的识别精度更高。
步骤203、计算机设备根据类别标签,输出待分类邮件的分类结果。
计算机设备输出待分类邮件的分类结果指的可以是:计算机设备指示电子邮件客户端以可视化的方式展示待分类邮件的分类结果。
其中,本申请实施例提供了两种可视化展示待分类邮件的分类结果的方式:
其中,第一种方式为:以列表的形式展示邮件,具体包括,在电子邮箱客户端的界面中展示一个列表,该列表下有多个带类别名称的分组,该待分类邮件获得一个类别标签后,会被放到相应的分组下,用户可以在该列表下查看各分组包含的邮件。
第二种方式为:以标识的形式展示邮件,具体包括,该待分类邮件获得一个类别标签后,该类别标签以可视化形式伴随该待分类邮件一起被展示在电子邮箱客户端的界面中。
在本申请的一个实施例中,计算机设备可以在待分类邮件发送的过程中对该待分类邮件进行分类,并根据分类结果对该待分类邮件进行相应的处理。
例如,在一种可能的实现方式中,信安邮件和垃圾邮件在发出时会被计算机设备直接拦截,并给发件人发送退信通知,通知中会给出必要的修改提示,以此避免错误拦截。被拦截的邮件不会进入收件人邮箱,收件人在该拦截过程中也无任何感知。
在本申请实施例提供的邮件分类方法中,通过获取待分类邮件,然后根据集成学习模型对该待分类邮件的邮件文本进行识别,获取该集成学习模型输出的类别标签,其中,该集成学习模型是由集成学习算法融合多个机器学习模型得到的,接着,根据该类别标签,输出该待分类邮件的分类结果。由于利用集成学习模型对邮件进行分类的过程不需要依赖规则词库,也就不需要依赖人工添加和更新规则,因此,可以规避人为失误,故而,本申请实施例提供的邮件分类方法可以提高对邮件分类的精度。
进一步地,由于通常情况下,单一的机器学习模型只对少数特定类型的邮件文本有较高的识别精度,因此在邮件类型较多时,单一的机器学习模型往往不能对邮件文本进行精准识别。本申请实施例提供的邮件分类方法中,该集成学习模型是由集成学习算法融合多个机器学习模型得到的,相当于该集成学习模型同时具备了多个机器学习模型的优点,所以该集成学习模型在邮件类型较多时,比单一机器学习模型对邮件文本的识别精度更高。
请参考图3,其示出了本申请实施例提供的另一种邮件分类方法的流程图,该邮件分类方法可以应用于上述的实施环境中的服务器或者终端中。如图3所示,在上述实施例的基础上,上述步骤202中,根据集成学习模型对邮件文本进行识别的技术过程可以包括以下步骤:
步骤301、计算机设备将邮件文本输入至词袋模型,得到词袋模型输出的邮件文本向量。
词袋模型的含义是,文本中的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序,而更加重视词出现的频率。词袋模型会统计一个文本中每个词出现的次数,并把该文本中的每个词用它出现的次数表示,这样文本就会被转换成一个文本向量。例如“小明喜欢黑色,也喜欢白色”这句话中“小明”出现1次,“喜欢”出现2次,“也”出现1次,“黑色”出现1次,“白色”出现1次。这句话经过词袋模型处理后对应的可被转换成一个[1,2,1,1,1]的五维文本向量。
邮件文本向量是指,待分类邮件的邮件文本在经过上述词袋模型的处理后得到的文本向量。
可选的,该词袋模型可以是由词频-逆文本频率指数算法(TF_IDF)训练的,词频-逆文本频率指数算法是用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度的算法。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。例如,如果一个词条在一个类的文本中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条可选来作为该类文本的特征词以区别与其它类文档。因此,利用该词频-逆文本频率指数算法训练的词袋模型可以准确表示邮件文本的特征。
步骤302、计算机设备将邮件文本向量输入至集成学习模型。
本申请实施例中,邮件文本并不能直接输入集成学习模型,必须经过步骤301之后,得到邮件文本向量,进一步的,在上文所述的步骤202中,计算机设备可以将该邮件文本向量输入至集成学习模型中,然后计算机设备会根据集成学习模型对该邮件文本向量进行识别,输出对应的类别标签。
请参考图4,其示出了本申请实施例提供的另一种邮件分类方法的流程图,该邮件分类方法可以应用于上述的实施环境中的服务器或者终端中。如图4所示,在上述实施例的基础上,上述步骤301中,将邮件文本输入至词袋模型的技术过程可以包括以下步骤:
步骤401、计算机设备对邮件文本进行分词处理,得到该邮件文本包含的多个词语。
分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程。例如“小明喜欢黑色,也喜欢白色”这句话经过分词处理后可变成“小明,喜欢,黑色,也,喜欢,白色”。
进一步的,在分词处理之后,计算机设备还可以对邮件文本进行过滤非法字符处理、去除干扰词处理和去除停用词处理等
其中,非法字符是指某个字符不能出现在某个定义的规则里,例如某些游戏的昵称不允许出现空格,那么空格这时就是一个非法字符。
干扰词是指那些经常出现,但没有多少实质含义的词汇。例如文本中经常出现的“的”,“了”,“嗯”等词。
停用词是指与文本中的其他词相比,没有多少实质含义的词,通常对于一个给定的目的,任何一类词都可被选做停用词。例如我们在文本中寻找描述物体形状的词时,描述物体颜色的词可被选做停用词。
经过步骤401,邮件文本被分割成多个词语。
步骤402、计算机设备将得到的多个词语输入至词袋模型。
该实施例中,邮件文本经过分词处理、过滤非法字符处理、去除干扰词处理和去除停用词处理等操作。因为上述处理方法去除了文本中很多无关信息,并且使文本变成词语的组合这样的形式,所以邮件文本经过处理后获得的多个词语可以很好地代表该邮件文本的特征。
上述实施例中提到的集成学习模型是由集成学习算法融合多个机器学习模型得到的,现对该集成学习模型的训练方法做简要说明。请参照图5,训练集成学习模型的训练方法包括:
步骤501、计算机设备获取多个训练文本向量。
训练文本向量指的是训练机器学习模型所使用的文本向量,其中,该训练文本向量是对训练用的邮件文本经过分词处理、过滤非法字符处理、去除干扰词处理和去除停用词处理等操作后输入词袋模型后得到的。
步骤502、计算机设备利用多个训练文本向量对多个机器学习模型进行训练,获得训练后的多个机器学习模型。
可选的,该多个机器学习模型可以是线性分类支持向量机模型、极端梯度提升决策树分类模型、梯度提升决策树分类模型和随机森林分类模型中的至少两个模型。该多个机器学习模型为同质模型,都有文本识别分类功能。
步骤503、计算机设备利用堆栈泛化(英文:stacking)集成学习算法将该训练后的多个机器学习模型进行融合,获得该集成学习模型。
可选的,本申请实施例中使用堆栈泛化集成学习算法融合多个训练后的机器学习模型。其逻辑过程是,多个机器学习模型对同一训练文本向量进行训练,各自得到一个预测结果,由此可得到多个预测结果,而后利用堆栈泛化集成学习算法融合多个机器学习模型,根据少数服从多数的原则,从多个预测结果中选出一个预测结果。
在其中一个实施例中,可选的,计算机设备利用对象序列化工具(英文:pickle)将上述词袋模型和集成学习模型存储为本地文件。在将邮件文本输入至词袋模型之前,计算机设备可以利用对象序列化工具加载该本地文件。本申请实施例中,因为对象序列化工具将上述词袋模型和集成学习模型存储为本地文件,文件是便于存储的,而且可以通过网络进行传输或者存到数据库中,因此对象序列化工具的利用可以实现对词袋模型和集成学习模型的持久化,便于词袋模型和集成学习模型的移植和部署。
在其中一个实施例中,可选的,计算机设备可以利用套接字(英文:socket)多进程通信方式,接收多个电子邮件客户端并行发送的多个待分类邮件。其中,套接字多进程通信方式能实时处理多个客户端并发的扫描请求,该方法可充分利用计算机设备的多核计算能力,提高邮件分类速度。
请参考图6,其示出了本申请实施例提供的一种邮件分类装置600的框图,该邮件分类装置600可以配置于服务器或者终端中。如图6所示,该邮件分类装置600可以包括:第一获取模块601,识别模块602和输出模块603。
其中第一获取模块601,用于获取待分类邮件,待分类邮件包括邮件文本。
识别模块602,用于根据集成学习模型对邮件文本进行识别,获取该集成学习模型输出的类别标签,该集成学习模型是由集成学习算法融合多个机器学习模型得到的。
输出模块603,用于根据类别标签,输出待分类邮件的分类结果。
在本申请的一个实施例中,该第一获取模块601,具体用于:利用套接字多进程通信方式,接收多个邮件客户端并行发送的多个该待分类邮件。
请参考图7,本申请实施例还提供了另一种邮件分类装置700,该邮件分类装置700除了包括邮件分类装置600包括的各模块外,可选的,该邮件分类装置700还可以包括:第二获取模块604、分词模块605、训练模块606、加载模块607。
其中,该第二获取模块604,用于将该邮件文本输入至词袋模型,获取该词袋模型输出的该邮件文本的文本向量。
对应的,该识别模块602具体用于将该邮件文本的文本向量输入至该集成学习模型,根据该集成学习模型对该邮件文本的文本向量进行识别。
在其中一个实施例中,该分词模块605用于:对该邮件文本进行分词处理,得到该邮件文本包括的多个词语。
对应的,该第二获取模块604,具体用于:将该邮件文本包括的多个词语输入至该词袋模型。
在其中一个实施例中,该训练模块606用于:获取多个训练文本向量;利用该多个训练文本向量对多个机器学习模型进行训练,获得训练后的多个机器学习模型;利用堆栈泛化集成学习算法将该训练后的多个机器学习模型进行融合,获得该集成学习模型。
在其中一个实施例中,该多个机器学习模型包括:线性分类支持向量机模型、极端梯度提升决策树分类模型、梯度提升决策树分类模型和随机森林分类模型中的至少两个。
在其中一个实施例中,该词袋模型和该集成学习模型由对象序列化工具存储为本地文件。该加载模块607用于利用对象序列化工具加载该本地文件。
本申请实施例提供的邮件分类装置可以实现上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
关于邮件分类装置的具体限定可以参见上文中对于邮件分类方法的限定,在此不再赘述。上述邮件处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本申请的一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器或者终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器和存储器。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种邮件分类方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请的一个实施例中,提供了一种计算机设备,该计算机设备可以为服务器或者终端,该计算机设备包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待分类邮件,该待分类邮件包括邮件文本;根据集成学习模型对该邮件文本进行识别,获取该集成学习模型输出的类别标签,该集成学习模型是由集成学习算法融合多个机器学习模型得到的;根据该类别标签,输出该待分类邮件的分类结果。
在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:将邮件文本输入至词袋模型,获取该词袋模型输出的该邮件文本的文本向量;将该邮件文本的文本向量输入至该集成学习模型。
在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:对该邮件文本进行分词处理,得到该邮件文本包括的多个词语;将该邮件文本包括的多个词语输入至该词袋模型。
在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:获取多个训练文本向量;利用该多个训练文本向量对多个机器学习模型进行训练,获得训练后的多个机器学习模型;利用堆栈泛化集成学习算法将该训练后的多个机器学习模型进行融合,获得集成学习模型。该多个机器学习模型包括:线性分类支持向量机模型、极端梯度提升决策树分类模型、梯度提升决策树分类模型和随机森林分类模型中的至少两个。
在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:利用对象序列化工具把上述词袋模型和集成学习模型存储为本地文件。在邮件文本输入至词袋模型之前,利用对象序列化工具加载该本地文件。
在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:利用套接字多进程通信方式,接收多个电子邮箱客户端并行发送的多个待分类邮件。
本申请实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在本申请的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待分类邮件,该待分类邮件包括邮件文本;根据集成学习模型对该邮件文本进行识别,获取该集成学习模型输出的类别标签,该集成学习模型是由集成学习算法融合多个机器学习模型得到的;根据该类别标签,输出该待分类邮件的分类结果。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:将邮件文本输入至词袋模型,获取该词袋模型输出的该邮件文本的文本向量;将该邮件文本的文本向量输入至该集成学习模型。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:对该邮件文本进行分词处理,得到该邮件文本包括的多个词语;将该邮件文本包括的多个词语输入至该词袋模型。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取多个训练文本向量;利用该多个训练文本向量对多个机器学习模型进行训练,获得训练后的多个机器学习模型;利用堆栈泛化集成学习算法将该训练后的多个机器学习模型进行融合,获得集成学习模型。
在本申请的一个实施例中,该多个机器学习模型包括:线性分类支持向量机模型、极端梯度提升决策树分类模型、梯度提升决策树分类模型和随机森林分类模型中的至少两个。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:利用对象序列化工具把上述词袋模型和集成学习模型存储为本地文件,在邮件文本输入至词袋模型之前,利用对象序列化工具加载该本地文件。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:利用套接字多进程通信方式,接收多个电子邮箱客户端并行发送的多个待分类邮件。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种邮件分类方法,其特征在于,所述方法包括:
获取待分类邮件,所述待分类邮件包括邮件文本;
根据集成学习模型对所述邮件文本进行识别,获取所述集成学习模型输出的类别标签,所述集成学习模型是由集成学习算法融合多个机器学习模型得到的;
根据所述类别标签,输出所述待分类邮件的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据集成学习模型对所述邮件文本进行识别之前,所述方法还包括:
将所述邮件文本输入至词袋模型,获取所述词袋模型输出的所述邮件文本的文本向量;
对应地,根据集成学习模型对所述邮件文本进行识别,包括:
将所述邮件文本的文本向量输入至所述集成学习模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述邮件文本输入至所述词袋模型之前,所述方法还包括:
对所述邮件文本进行分词处理,得到所述邮件文本包括的多个词语;
对应地,所述将所述邮件文本输入至所述词袋模型,包括:
将所述邮件文本包括的多个词语输入至所述词袋模型。
4.根据权利要求1所述的方法,其特征在于,所述根据集成学习模型对所述邮件文本进行识别之前,所述方法还包括:
获取多个训练文本向量;
利用所述多个训练文本向量对多个机器学习模型进行训练,获得训练后的多个机器学习模型;
利用堆栈泛化集成学习算法将所述训练后的多个机器学习模型进行融合,获得所述集成学习模型。
5.根据权利要求4所述的方法,其特征在于,所述多个机器学习模型包括:
线性分类支持向量机模型、极端梯度提升决策树分类模型、梯度提升决策树分类模型和随机森林分类模型中的至少两个。
6.根据权利要求2所述的方法,其特征在于,所述词袋模型和所述集成学习模型由对象序列化工具存储为本地文件,所述将所述邮件文本输入至词袋模型之前,所述方法还包括:
利用对象序列化工具加载所述本地文件。
7.根据权利要求1所述的方法,其特征在于,所述获取所述待分类邮件,包括:
利用套接字多进程通信方式,接收多个电子邮件客户端并行发送的多个所述待分类邮件。
8.一种邮件分类装置,其特征在于,所述装置包括:
第一获取模块,用于获取待分类邮件,所述待分类邮件包括邮件文本;
识别模块,用于根据集成学习模型对所述邮件文本进行识别,获取所述集成学习模型输出的类别标签,所述集成学习模型是由集成学习算法融合多个机器学习模型得到的;
输出模块,用于根据所述类别标签,输出所述待分类邮件的分类结果。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的邮件分类方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一所述的邮件分类方法。
CN201910732924.3A 2019-08-09 2019-08-09 邮件分类方法、装置、设备及存储介质 Pending CN110505144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910732924.3A CN110505144A (zh) 2019-08-09 2019-08-09 邮件分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910732924.3A CN110505144A (zh) 2019-08-09 2019-08-09 邮件分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110505144A true CN110505144A (zh) 2019-11-26

Family

ID=68587204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910732924.3A Pending CN110505144A (zh) 2019-08-09 2019-08-09 邮件分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110505144A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143552A (zh) * 2019-12-05 2020-05-12 支付宝(杭州)信息技术有限公司 文本信息的类别预测方法和装置、服务器
WO2021051764A1 (zh) * 2019-09-20 2021-03-25 苏州大学 一种邮件分类方法、装置、设备及计算机可读存储介质
CN113452599A (zh) * 2021-05-17 2021-09-28 中国科学院信息工程研究所 一种社工邮件防御方法、系统、电子设备及存储介质
WO2024037416A1 (zh) * 2022-08-16 2024-02-22 华为技术有限公司 邮件管理方法和电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043776A (zh) * 2009-10-14 2011-05-04 南开大学 与查询相关的多排序模型集成算法
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN106548210A (zh) * 2016-10-31 2017-03-29 腾讯科技(深圳)有限公司 机器学习模型训练方法及装置
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN107301167A (zh) * 2017-05-25 2017-10-27 中国科学院信息工程研究所 一种功性能描述信息识别方法及装置
CN108512827A (zh) * 2018-02-09 2018-09-07 世纪龙信息网络有限责任公司 异常登录的识别和监督学习模型的建立方法、装置
CN109063078A (zh) * 2018-07-24 2018-12-21 武汉胖猫智能科技有限公司 钢贸金融业务的数据分析方法及系统
CN109213843A (zh) * 2018-07-23 2019-01-15 北京密境和风科技有限公司 一种垃圾文本信息的检测方法及装置
CN110019777A (zh) * 2017-09-05 2019-07-16 腾讯科技(深圳)有限公司 一种信息分类的方法及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043776A (zh) * 2009-10-14 2011-05-04 南开大学 与查询相关的多排序模型集成算法
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN106548210A (zh) * 2016-10-31 2017-03-29 腾讯科技(深圳)有限公司 机器学习模型训练方法及装置
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN107301167A (zh) * 2017-05-25 2017-10-27 中国科学院信息工程研究所 一种功性能描述信息识别方法及装置
CN110019777A (zh) * 2017-09-05 2019-07-16 腾讯科技(深圳)有限公司 一种信息分类的方法及设备
CN108512827A (zh) * 2018-02-09 2018-09-07 世纪龙信息网络有限责任公司 异常登录的识别和监督学习模型的建立方法、装置
CN109213843A (zh) * 2018-07-23 2019-01-15 北京密境和风科技有限公司 一种垃圾文本信息的检测方法及装置
CN109063078A (zh) * 2018-07-24 2018-12-21 武汉胖猫智能科技有限公司 钢贸金融业务的数据分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SOONER高: "机器学习算法——集成方法(Ensemble)之Stacking", 《CSDN博客HTTPS://BLOG.CSDN.NET/G11D111/ARTICLE/DETAILS/80215381》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051764A1 (zh) * 2019-09-20 2021-03-25 苏州大学 一种邮件分类方法、装置、设备及计算机可读存储介质
CN111143552A (zh) * 2019-12-05 2020-05-12 支付宝(杭州)信息技术有限公司 文本信息的类别预测方法和装置、服务器
CN113452599A (zh) * 2021-05-17 2021-09-28 中国科学院信息工程研究所 一种社工邮件防御方法、系统、电子设备及存储介质
WO2024037416A1 (zh) * 2022-08-16 2024-02-22 华为技术有限公司 邮件管理方法和电子设备

Similar Documents

Publication Publication Date Title
CN110505144A (zh) 邮件分类方法、装置、设备及存储介质
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
US8131655B1 (en) Spam filtering using feature relevance assignment in neural networks
CN108985214A (zh) 图像数据的标注方法和装置
CN109934255B (zh) 一种适用于饮料瓶回收机投递物分类识别的模型融合方法
WO2019179010A1 (zh) 数据集获取方法、分类方法、装置、设备及存储介质
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN109190594A (zh) 光学字符识别系统及信息提取方法
CN109344869A (zh) 一种分类模型优化方法、装置及存储设备、程序产品
CN106708940A (zh) 用于处理图片的方法和装置
CN111159417A (zh) 文本内容关键信息的提取方法、装置、设备及存储介质
CN109800852A (zh) 一种多模态的垃圾邮件识别方法
US20220246257A1 (en) Utilizing machine learning and natural language processing to extract and verify vaccination data
CN110348346A (zh) 一种票据分类识别方法及系统
CN106909656A (zh) 获取文本提取模型的方法及装置
CN111680679A (zh) 一种基于ocr的单据自动识别方法
KR100737853B1 (ko) 이메일 분류 시스템 및 방법
CN104361015A (zh) 一种邮件分类识别方法
CN106549853A (zh) 一种邮件处理方法及装置
US20210312204A1 (en) System and method for automatically recognizing delivery point information
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
WO2017036341A1 (en) Random index pattern matching based email relations finder system
CN114169301A (zh) 电子面单汇聚取号方法、装置、设备及存储介质
CN113706115A (zh) 一种邮件处理方法、装置及存储介质
US11954903B2 (en) System and method for automatically recognizing delivery point information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220119

Address after: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200040

Applicant after: Tianyi Digital Life Technology Co.,Ltd.

Address before: 1 / F and 2 / F, East Garden, Huatian International Plaza, 211 Longkou Middle Road, Tianhe District, Guangzhou, Guangdong 510630

Applicant before: Century Dragon Information Network Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191126