CN108347367A - 一种电子邮件处理方法、装置、服务器及客户端 - Google Patents
一种电子邮件处理方法、装置、服务器及客户端 Download PDFInfo
- Publication number
- CN108347367A CN108347367A CN201710053234.6A CN201710053234A CN108347367A CN 108347367 A CN108347367 A CN 108347367A CN 201710053234 A CN201710053234 A CN 201710053234A CN 108347367 A CN108347367 A CN 108347367A
- Authority
- CN
- China
- Prior art keywords
- target user
- user
- behavior
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/216—Handling conversation history, e.g. grouping of messages in sessions or threads
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Computer Hardware Design (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电子邮件处理方法、装置、服务器及客户端,其方法包括:获取目标用户的历史邮件以及目标用户的邮件操作历史日志;根据历史邮件,确定目标用户的联络频繁子图;根据邮件操作历史日志中的用户行为信息,生成目标用户的个性化行为特征;根据联络频繁子图和个性化行为特征,确定邮件的归档特征信息并发送至客户端。本发明的服务器将目标用户的联络频繁子图和个性化行为特征发送至客户端,客户端根据本地用户行为和归档特征信息确定电子邮件的个性化排序权重,并依据该排序权重对电子邮件进行整理排序,以使电子邮件的整理和排序接近用户的使用习惯,提高用户使用和查看电子邮件效率。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种电子邮件处理方法、装置、服务器及客户端。
背景技术
电子邮件已经成为生活或办公中不可或缺的工具,是各大网站和手机应用注册认证的主要方式,更是公务联络的重要渠道及信息助手。电子邮件在给人们提供快捷便利的沟通方式的同时,邮箱也被越来越多、各式各样的邮件所充斥。如今各项技术智能化高速发展,作为最为重要的信息化工具,电子邮件的丰富多样及广泛使用,使得如何有效整理用户纷繁杂乱的电子邮件,帮助用户智能便捷地使用和查看邮件成为新的挑战。
现有电子邮件相关技术主要集中在电子邮件的收发装置或者内容过滤上,很少涉及电子邮件自动整理范畴。部分可以用于邮件整理的分类和排序方法,仅仅基于简单的邮件信息,或者依赖于人工预先设定的规则,这都并非真正意义上的自动处理。此外,极少数文章提到了利用邮件文本信息来归类邮件,纯粹的文本相似计算不仅计算量大、效率低,得到的分类结果也不一定适用于邮件整理的需求,较难在实际应用中使用。市场中邮件客户端百花齐放,但也只有极少数公司提供了邮件整理功能,且都需要用户预先提供相应的整理规则,这种邮件整理方法较为简单,无法适应邮件内容形式的变化,也远远满足不了用户对电子邮件智能化整理的需求。
因此,如何准确有效的对电子邮件进行自动整理,从而帮助用户在众多邮件中快速定位需要查看的重要邮件,提高用户使用效率和改善使用体验是电子邮件相关技术发展中亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供了一种电子邮件处理方法、装置、服务器及客户端,解决了现有技术中不能准确有效对电子邮件进行自动整理的问题。
依据本发明的一个方面,提供了一种电子邮件处理方法,应用于服务器,包括:
获取目标用户的历史邮件以及目标用户的邮件操作历史日志;
根据历史邮件,确定目标用户的联络频繁子图;
根据邮件操作历史日志中的用户行为信息,生成目标用户的个性化行为特征;
根据联络频繁子图和个性化行为特征,确定邮件的归档特征信息并发送至客户端。
依据本发明的再一个方面,提供了一种电子邮件处理装置,应用于服务器,包括:
第一获取模块,用于获取目标用户的历史邮件以及目标用户的邮件操作历史日志;
第一处理模块,用于根据历史邮件,确定目标用户的联络频繁子图;
第二处理模块,用于根据邮件操作历史日志中的用户行为信息,生成目标用户的个性化行为特征;
第三处理模块,用于根据联络频繁子图和个性化行为特征,确定邮件的归档特征信息并发送至客户端。
依据本发明的再一个方面,提供了一种服务器,包括如上所述的电子邮件处理装置。
依据本发明的再一个方面,提供了一种电子邮件处理方法,应用于客户端,包括:
获取目标用户的本地用户行为以及服务器发送的归档特征信息;
根据本地用户行为和归档特征信息,确定目标用户的个性化排序权重;其中,归档特征信息包括:联络频繁子图和个性化行为特征;
根据个性化排序权重,对目标用户的邮件进行排序。
依据本发明的再一个方面,提供了一种电子邮件处理装置,应用于客户端,包括:
第二获取模块,用于获取目标用户的本地用户行为以及服务器发送的归档特征信息;
第四处理模块,用于根据本地用户行为和归档特征信息,确定目标用户的个性化排序权重;其中,归档特征信息包括:联络频繁子图和个性化行为特征;
排序模块,用于根据个性化排序权重,对目标用户的邮件进行排序。
依据本发明的再一个方面,提供了一种客户端,包括如上所述的电子邮件处理装置。
本发明的实施例的有益效果是:服务器将目标用户的联络频繁子图和个性化行为特征发送至客户端,客户端根据本地用户行为和归档特征信息确定电子邮件的个性化排序权重,并依据该排序权重对电子邮件进行整理排序,以使电子邮件的整理和排序接近用户的使用习惯,提高用户使用和查看电子邮件效率。
附图说明
图1表示本发明的服务器和客户端构成的系统架构图;
图2表示本发明的服务器端的电子邮件处理方法的流程图;
图3表示图2中步骤22的实现方法流程图一;
图4表示图2中步骤22的实现方法流程图二;
图5表示图2中步骤23的实现方法流程图;
图6表示本发明的服务器端的电子邮件处理装置的模块示意图;
图7表示本发明的客户端的电子邮件处理方法的流程图一;
图8表示本地用户行为特征的统计过程示意图;
图9表示本发明的客户端的电子邮件处理方法的流程图二;
图10表示本发明的客户端的电子邮件处理装置的模块示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
图1为本发明的电子邮件处理方法对应的系统架构图,该系统架构包括客户端和服务器端,其中,客户端包括数据存储模块和结果显示模块,其中,数据存储模块存储了两部分数据,一部分是用户操作邮件的邮件操作日志,该部分数据是暂存数据,在客户端联网时会上传到服务器端进行用户行为特征分析,另一部分存储的数据是邮件整理排序算法所需的数据。服务器端包括用户行为特征库和联络频繁子图特征库两个特征库,其中,用户行为特征库是根据用户历史邮件操作日志分析得到的用户行为的特征信息;联络频繁子图特征库是历史邮件往来的相关信息,可提取出对邮件整理有价值的标签组别和排序依据。
如图2所示,本发明的实施例提供了一种电子邮件处理方法,应用于服务器端,具体包括以下步骤:
步骤21:获取目标用户的历史邮件以及目标用户的邮件操作历史日志。
其中,一个邮箱地址对应一个目标用户,一个目标用户可以对应多个邮箱地址。目标用户的历史邮件可以是目标用户接收到的邮件,也可以是目标用户发出的邮件,其中,无论接收还是发送的邮件均包括抄送、密送等途径得到的邮件。进一步地,邮件操作历史日志是客户端采集并发送至服务器端的。
步骤22:根据历史邮件,确定目标用户的联络频繁子图。
其中,每封电子邮件均包括发件、收件、抄送、密送等表征邮件往来路径的字段,根据上述字段可确定各个历史邮件的往来路径,从而确定目标用户与其他用户之间的联络频繁子图。
步骤23:根据邮件操作历史日志中的用户行为信息,生成目标用户的个性化行为特征。
邮件操作历史日志包括目标用户的用户行为信息,用户行为信息为对各个电子邮件的操作信息,该操作信息包括:操作类型(如阅读、回复、转发、标记、删除等)、操作时间等。根据目标用户的邮件操作历史日志,能够生成目标用户的个性化行为特征。
步骤24:根据联络频繁子图和个性化行为特征,确定邮件的归档特征信息并发送至客户端。
目标用户的历史邮件和邮件操作历史日志提交到服务器端,形成长期的用户个性化行为特征,从用户行为特征库中挖掘出目标用户对邮件整理和排序有用的个性化行为特征。并进一步,通过分析用户历史邮件往来信息,结合用户邮件的收件、抄送(密送)、回复(回复全部)、转发等特征形成目标用户的联系人网络,构建目标用户的联络频繁子图,并从中自动生成电子邮件的分类信息和标签组别发送至客户端,客户端综合服务器端和客户端的特征信息权值,通过排序算法使得排序结果自适应的匹配用户使用习惯。
其中,步骤21包括:获取目标用户与其他用户之间邮件往来事件对应的历史邮件;并接收客户端发送的目标用户在预设统计周期内的邮件操作历史日志。其中,邮件往来事件包括:发送事件、抄送事件、回复事件和转发事件中的至少一项;邮件操作历史日志包括以下信息中的至少一项:目标用户ID(如目标用户的账户等)、邮件ID(如目标用户的邮箱地址)、操作ID、用户行为信息(如阅读、回复、转发、标记、删除等)以及用户行为信息对应的行为时间。其中,可对用户行为信息进行编码整合,生成对应的操作ID,以简化特征分析复杂度。
由上可知,用户行为特征分析和联络频繁子图分析均在服务器端完成,以减轻客户端对用户行为数据存储和计算的压力,并在一定程度上使得用户行为特征分析灵活、通用性高,能够随时改进特征分析的算法模型。下面本实施将结合具体应用场景对服务器端的数据分析做详细介绍。
可选地,通过引入目标用户的联络频繁子图分析,有效解决了长尾效应中的邮件分类排序问题。基于目标用户的历史邮件的往来信息,结合用户邮件的收件人、抄送、回复、转发等特征形成用户联系人网络,构建联络频繁子图。从目标用户与其他用户之间的邮件往来频率的角度入手,形成关联网络分析,通过频繁子图的挖掘自动生成邮件的分类信息和标签组别。如图3所示,步骤22的实现方法具体包括以下步骤:
步骤31:根据历史邮件,确定历史邮件的路径。
其中,历史邮件为目标用户与其他用户之间往来的历史邮件,目标用户的确定可根据邮件历史信息抽取出所有用户,并对所有用户进行去重处理,对去重处理后的任一用户赋予唯一的用户身份ID。其中,目标用户为这些用户中的一个,具有唯一的用户身份ID。
具体地,从历史邮件中抽取不同的邮件往来事件对应的各个字段信息;根据该字段信息,确定目标用户与其他用户往来邮件的路径。其中各个字段信息包括:收件信息、抄送信息和密送信息。即,针对目标用户的历史邮件列表中的每一封邮件mi,抽取出发件人fi、收件人si、抄送ci、回复hi、转发zi等字段。
步骤32:根据历史邮件的路径,确定目标用户的联络频繁子图。
将目标用户确定为根节点,将其他用户确定为子节点,将历史邮件的路径确定为根节点与各个子节点之间的路径;根据根节点、子节点以及对应的路径,构建目标用户与其他用户之间的联络频繁子图。
对于目标用户循环遍历邮件列表,根据步骤301中抽取出的字段信息,构建目标用户与其他用户的联络网络,其中,网络中的节点为用户ID,节点之间的边(即根节点与各个子节点之间的路径)为历史邮件的路径。进一步地,网络中节点之间的边为抽取出的字段的加权,即往来邮件越频繁其权值越高。
为了进一步简化和优化目标用户的联络频繁子图,在根据根节点、子节点以及对应的路径,构建目标用户与其他用户之间的联络频繁子图的步骤之后,还包括:统计所述联络频繁子图中根节点与各个子节点之间路径的往来次数;将往来次数低于预设阈值的子节点从所述联络频繁子图中删除。即根据人工设定的最小频繁阈值(预设阈值)对网络中的子节点进行剪枝,保留往来次数高于最小频繁阈值的联络人。
在根据根节点、子节点以及对应的路径,构建目标用户与其他用户之间的联络频繁子图的步骤之后,还包括:对同一子节点对应的历史邮件进行语义分析,得到各个历史邮件的标签信息;根据所述标签信息,确定与所述子节点对应的历史邮件的分类信息。这里是说,通过挖掘出的联络频繁子图,对子图中的邮件内容进行语义聚类抽象,得到子图的分类信息和标签组别,以便于客户端排序系数的计算。
具体地,如图4所示,步骤22的实现方法具体还包括:
步骤41:从历史邮件中抽取出各个用户的用户ID,确定目标用户。
步骤42:对目标用户的历史邮件进行转发、回复等相应字段的抽取。
步骤43:循环遍历历史邮件列表,构建目标用户的联络人网络。
步骤44:根据最小频繁阈值对联络人网络进行剪枝过滤,得到目标用户的联络频繁子图。
步骤45:根据联络频繁子图进行邮件标签组别挖掘。
进一步地,如图5所示,步骤23具体包括以下步骤:
步骤51:根据邮件操作历史日志,获取对邮件的浏览特征以及人工标记信息。
其中,邮件操作历史日志主要记录了目标用户对邮件的人工标记(flag)、人工类别设置、浏览时间、搜索历史等操作行为及相关信息,每次邮件操作都会产生一条日志信息,其内容包括C={用户ID,邮件ID,操作ID,操作时间,…}。其中,用户ID是唯一标识用户身份的编码;邮件ID是针对每位用户所有邮件的编码,每位用户都维护着一张邮件ID表,当邮件发生变化时,即新增或删除时,这张表都会立即进行刷新修改,并同步客户端和服务器端的邮件ID信息。进一步地,邮件长期历史情况统计:针对每位用户,统计出目标用户对于邮件的长期使用情况数据,包括内容Cuser={用户ID,邮件ID,检索总次数,浏览总时长,…};针对所有用户,综合得出用户之间的总体邮件往来情况,供邮件联络人频繁子图特征分析使用,包括内容Cmail={邮件ID,转发总人数,检索总次数,…}。服务器端丰富的计算资源使得分析粒度相对于客户端可以更加细化,本本发明实施例主要给出了以下两个方向,丰富用户使用行为特征数据,即用户浏览特征和人工标记信息。
步骤52:根据浏览特征和人工标记信息,确定目标用户的个性化行为特征。
具体地,对于根据浏览特征确定个性化行为特征,可按不同的时间粒度细分,挖掘目标用户在不同时间浏览和查阅邮件的行为特征。从较为精细的粒度划分,可以挖掘出用户在一天范围内不同时刻的浏览习惯,从而将邮件的排序精细到更加准确的时间范围;从长期的周期规律上分析,可以总结用户在特定日期的检索习惯,准确定位邮件查阅行为日期。如果邮件浏览行为存在较为明显的时间特征,即邮件的浏览时间通常集中在某一时刻或者某一特定日期,则在相应时间对该邮件的排序权重就需要提高,其他时间的排序则可以相对降低。而对于根据人工标记信息确定个性化行为特征,目标用户在浏览和查阅邮件的过程中,通常会对重要的邮件进行人工标记(“标红”操作)和人工类别设置,对垃圾类邮件直接进行删除(邮件移动至“已删除”文件夹)或者是直接进行“彻底删除”操作。通过机器学习方法,抽象出其中的蕴含的模式和经验,基于此类人工标记数据进行监督学习,对于后续邮件的整理和排序有着重要意义。
这样,上述方案突破了现有技术中基于人工预设规则的分类排序方法,通过扩充特征进而改进排序算法,使得排序结果在根本上得到优化;此外,通过联络频繁子图分析解决了长尾效应中的邮件分类排序问题,分析目标用户的历史邮件的往来信息,结合目标用户的历史邮件的收件人、抄送、回复、转发等特征形成用户联系人网络,构建邮件联络频繁子图并从中自动生成邮件分类信息和标签组别,从而实现电子邮件多维度、多角度的自动整理。
进一步地,客户端综合目标用户的个性化行为特征和联络频繁子图,运用数据分析技术从多角度理解数据并提取特征,从而实现排序的智能化、个性化,更好的契合用户使用习惯,提升用户体验。此外,在服务器端对数据量庞大的特征分析计算进行处理,减轻了客户端的计算负担,在丰富特征和算法后不影响排序效率,同时,特征抽取和排序算法的分离,使得系统的可扩展性增强,提高了系统的灵活性和通用性。
实施二
以上实施例一介绍了本发明的服务器侧的电子邮件处理方法,下面本实施例将结合附图对其对应的电子邮件处理装置做进一步说明。
如图6所示,本发明的实施例中的电子邮件处理装置,应用于服务器,包括:
第一获取模块601,用于获取目标用户的历史邮件以及目标用户的邮件操作历史日志;
第一处理模块602,用于根据历史邮件,确定目标用户的联络频繁子图;
第二处理模块603,用于根据邮件操作历史日志中的用户行为信息,生成目标用户的个性化行为特征;
第三处理模块604,用于根据联络频繁子图和个性化行为特征,确定邮件的归档特征信息并发送至客户端。
其中,第一获取模块601包括:
第一获取单元,用于获取目标用户与其他用户之间邮件往来事件对应的历史邮件;其中,邮件往来事件包括:发送事件、抄送事件、回复事件和转发事件中的至少一项;
第一接收单元,用于接收客户端发送的目标用户在预设统计周期内的邮件操作历史日志;其中,邮件操作历史日志包括以下信息中的至少一项:目标用户ID、邮件ID、操作ID、用户行为信息以及用户行为信息对应的行为时间。
其中,第一处理模块602包括:
第一处理单元,用于根据历史邮件,确定历史邮件的路径;
第二处理单元,用于根据历史邮件的路径,确定目标用户的联络频繁子图。
其中,第一处理单元包括:
抽取子单元,用于从历史邮件中抽取不同的邮件往来事件对应的各个字段信息;字段信息包括:收件信息、抄送信息和密送信息;
第一处理子单元,用于根据字段信息,确定目标用户与其他用户往来邮件的路径。
其中,第二处理单元包括:
第二处理子单元,用于将目标用户确定为根节点,将其他用户确定为子节点,将历史邮件的路径确定为根节点与各个子节点之间的路径;
构建子单元,用于根据根节点、子节点以及对应的路径,构建目标用户与其他用户之间的联络频繁子图。
其中,第二处理单元还包括:
统计子单元,用于统计联络频繁子图中根节点与各个子节点之间路径的往来次数;
删除子单元,用于将往来次数低于预设阈值的子节点从联络频繁子图中删除。
其中,第二处理单元还包括:
第三处理子单元,用于对同一子节点对应的历史邮件进行语义分析,得到各个历史邮件的标签信息;
第四处理子单元,用于根据标签信息,确定与子节点对应的历史邮件的分类信息。
其中,第二处理模块603包括:
第二获取单元,用于根据邮件操作历史日志,获取对邮件的浏览特征以及人工标记信息;
第三处理单元,用于根据浏览特征和人工标记信息,确定目标用户的个性化行为特征。
需要说明的是,该电子邮件处理装置是与上述电子邮件处理方法对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
依据本实施例的再一个方面,还提供了一种服务器,包括如上所述的电子邮件处理装置。
实施例三
以上实施例一和实施例二分别就服务器侧的电子邮件处理方法、装置及服务器做了简单介绍,下面本实施例将结合附图对其对应的客户端侧的电子邮件处理方法作进一步介绍。
本发明实施例的电子邮件处理方法,应用于客户端,将服务器端挖掘得出的邮件分类相关特征及排序信息与本地的用户行为特征数据一并存储在存储模块的排序数据区,处理模块则按照一定的排序策略使用这些数据,得到最终的邮件的整理排序结果,并通过显示模块将整理排序之后的结果展示给对应的用户。如图7所示,具体包括以下步骤:
步骤71:获取目标用户的本地用户行为以及服务器发送的归档特征信息。
其中,本地用户行为为本地短期的用户行为数据,服务器发送的归档特征信息包括:联络频繁子图和个性化行为特征。个性化行为特征为用户长期行为数据。
具体地,步骤71包括:获取目标用户对邮件的操作事件,生成对应的本地用户行为;根据本地用户行为,生成目标用户的邮件操作历史日志并发送至服务器;接收服务器发送的归档特征信息。
其中,操作事件包括:邮件检索、邮件浏览、邮件标记和邮件处理中的至少一项,归档特性信息为服务器根据联络频繁子图和个性化行为特征确定的;联络频繁子图为服务器根据目标用户的历史邮件的路径信息确定的,个性化行为特征为服务器根据邮件操作历史日志中的用户行为信息生成的。本地用户行为特征包括目标用户对于邮件的检索频次count(ci)、浏览时长time(ti)、人工标记flag(fi)数据,是用户最直接实时的反映,是邮件整理排序的重要依据。本地数据只存储固定短周期内的本地用户行为,更细致、更全面的长期行为数据分析则放在服务器端完成。如图8所示,本地用户行为特征不是简单的累加,而是以天为一个统计单元,分别记录每封邮件在统计时间单位下用户相关操作数据p={ci,ti,fi,…}。例如本地用户行为特征为n天内统计得到的用户行为数据,当得到新一天的统计数据时,过期数据进行删除。
步骤72:根据本地用户行为和归档特征信息,确定目标用户的个性化排序权重。
如何使用统计数据来正确反映用户行为,而不是单纯的按照频次进行排序,是排序结果能否有效适应用户使用习惯的关键。本发明实施例提出的排序权重计算方法综合考虑了多方面因素,打破了传统的基于简单统计频次和人工设定规则的排序方法。
其中,本地短期的用户行为数据(即本地用户行为)和服务器端得到的用户长期行为数据(归档特征信息中的个性化行为特征)是进行邮件整理排序的主要参数,并进一步结合归档特征信息中联络频繁子图,计算得到电子邮件的标签组别和排序权值,从而进行邮件的归并和整理。其中,挖掘得到的本地用户行为和个性化用户行为特征属于调参数据,联络频繁子图对排序权值进行相应调节,使排序更加符合用户使用行为。
具体地,步骤72包括:根据公式计算本地用户行为中各个邮件的操作频率;根据公式计算目标用户的个性化排序权重wi;其中,
其中,fij为目标用户在单位时间j内对邮件i的操作次数,ti表示本地用户行为中对邮件i进行操作的总时长,T表示本地用户行为的统计周期,f′i表示目标用户的个性化行为特征中对邮件i的操作次数;t′i表示个性化行为特征中对邮件i进行操作的总时长,θ和为排序权重系数。
进一步地,在计算排序权重之前,还包括:根据归档特征信息中的联络频繁子图,确定排序权重系数。具体地,根据归档特征信息中的联络频繁子图,确定排序权重系数的步骤包括:根据联络频繁子图中各个子节点对应的历史邮件的分类信息,确定与子节点对应的历史邮件的排序权重系数;其中,分类信息不同所对应的排序权重系数不同。
即,本地用户行为特征以天为基本时间单位来统计用户的操作频次信息。假设本地用户数据采集周期为T,共有n封邮件,其中有ti天对邮件mi进行了操作,设fij为邮件mi在时间单位dj中的操作次数,为了将操作数据进行更为准确的用户行为表述,本提案设计了TF-ATP方法。由于用户的行为每天都不一样,不存在直接可比性,单纯使用频次来代表用户行为特征不够准确,为了去除这部分影响,使用频率TF(Term Frequency)来表述邮件的使用情况,邮件mi在时间单位dj中频率定义为:
用户经常操作的邮件排序应该高于用户偶尔操作了多次的邮件,为了去除后者带来的数据噪音干扰,引入了平均时间占比ATP(Average Time Proportion),其中,
用户的长期行为相较于短时间内的本地行为,对于邮件的整理排序同样具有正向影响作用。综合考虑短期行为和长期行为则可以均衡两种数据的优点和缺点,全面概括用户的使用行为信息。设邮件mi的长期使用总频次为f′i,到达的总时长为t′i,综合本地用户短期数据和长期行为得出的综合邮件排序权重可表示为向量m=(w1,w2,…,wn)。其中,
步骤73:根据个性化排序权重,对目标用户的邮件进行排序。
在步骤73之前,该方法还包括:根据个性化行为特征中的浏览特征和人工标记信息,修正个性化排序权重。具体地,服务器端分析得出用户行为特征和相应权值,传输给客户端供排序算法使用。本发明实施例给出了用户行为特征挖掘的两个方向:浏览特征和人工标记信息。
其中,浏览特征体现为浏览时间分布信息,根据用户使用邮件的时间分布特征,对邮件排序权重进行调节来适应不同时间的用户邮件整理排序需求。设用户在时间ti操作邮件mi的概率为σ,邮件mi的排序权重为θ,则在时间ti范围内邮件mi的排序权重增加为θ*(1+σ),而在时间ti范围外则将权重减少为θ*(1-σ)。
对于人工标记信息,通过机器学习方法,抽象出历史人工标记的模式和经验,基于此类人工标记数据进行监督学习,训练得到针对邮件mi的自适应调整参数η,对于邮件mi的权重调整为θ*η。
具体地,如图9所示,计算排序权重和依据排序权重进行排序的步骤具体包括:
步骤91:计算本地用户行为特征对邮件排序的排序权重。
步骤92:加权服务器端发送的个性化行为特征的特征权值。
步骤93:根据个性化行为的特征权值,调整排序权重。
步骤94:根据联络频繁子图整理分类邮件,并进行排序。
这样,上述方案突破了现有技术中基于人工预设规则的分类排序方法,通过扩充特征进而改进排序算法,使得排序结果在根本上得到优化;此外,通过联络频繁子图分析解决了长尾效应中的邮件分类排序问题,分析目标用户的历史邮件的往来信息,结合目标用户的历史邮件的收件人、抄送、回复、转发等特征形成用户联系人网络,构建邮件联络频繁子图并从中自动生成邮件分类信息和标签组别,从而实现电子邮件多维度、多角度的自动整理。
进一步地,客户端综合目标用户的个性化行为特征和联络频繁子图,运用数据分析技术从多角度理解数据并提取特征,从而实现排序的智能化、个性化,更好的契合用户使用习惯,提升用户体验。此外,在服务器端对数据量庞大的特征分析计算进行处理,减轻了客户端的计算负担,在丰富特征和算法后不影响排序效率,同时,特征抽取和排序算法的分离,使得系统的可扩展性增强,提高了系统的灵活性和通用性。
实施例四
以上实施例三介绍了本发明的客户端侧的电子邮件处理方法,下面本实施例将结合附图对其对应的电子邮件处理装置做进一步说明。
如图10所示,本发明的实施例中的电子邮件处理装置,应用于客户端,具体包括:
第二获取模块1001,用于获取目标用户的本地用户行为以及服务器发送的归档特征信息;
第四处理模块1002,用于根据本地用户行为和归档特征信息,确定目标用户的个性化排序权重;其中,归档特征信息包括:联络频繁子图和个性化行为特征;
排序模块1003,用于根据个性化排序权重,对目标用户的邮件进行排序。
其中,第二获取模块1001包括:
第二获取单元,用于获取目标用户对邮件的操作事件,生成对应的本地用户行为;其中,操作事件包括:邮件检索、邮件浏览、邮件标记和邮件处理中的至少一项;
第四处理单元,用于根据本地用户行为,生成目标用户的邮件操作历史日志并发送至服务器;
第二接收单元,用于接收服务器发送的归档特征信息;
其中,归档特性信息为服务器根据联络频繁子图和个性化行为特征确定的;联络频繁子图为服务器根据目标用户的历史邮件的路径信息确定的,个性化行为特征为服务器根据邮件操作历史日志中的用户行为信息生成的。
其中,第四处理模块包括:
第一计算单元,用于根据公式计算本地用户行为中各个邮件的操作频率;
第二计算单元,用于根据公式计算目标用户的个性化排序权重wi;其中,
其中,fij为目标用户在单位时间j内对邮件i的操作次数,ti表示本地用户行为中对邮件i进行操作的总时长,T表示本地用户行为的统计周期,f′i表示目标用户的个性化行为特征中对邮件i的操作次数;t′i表示个性化行为特征中对邮件i进行操作的总时长,θ和为排序权重系数。
其中,第四处理模块1002还包括:
确定单元,用于根据归档特征信息中的联络频繁子图,确定排序权重系数。
其中,确定单元包括:
确定子单元,用于根据联络频繁子图中各个子节点对应的历史邮件的分类信息,确定与子节点对应的历史邮件的排序权重系数;其中,分类信息不同所对应的排序权重系数不同。
其中,该电子邮件处理装置还包括:
修正模块,用于根据个性化行为特征中的浏览特征和人工标记信息,修正个性化排序权重。
需要说明的是,该电子邮件处理装置是与上述电子邮件处理方法对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
依据本实施例的再一个方面,还提供了一种客户端,包括如上所述的电子邮件处理装置。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。
Claims (14)
1.一种电子邮件处理方法,应用于服务器,其特征在于,包括:
获取目标用户的历史邮件以及所述目标用户的邮件操作历史日志;
根据所述历史邮件,确定所述目标用户的联络频繁子图;
根据所述邮件操作历史日志中的用户行为信息,生成所述目标用户的个性化行为特征;
根据所述联络频繁子图和所述个性化行为特征,确定邮件的归档特征信息并发送至客户端。
2.根据权利要求1所述的电子邮件处理方法,其特征在于,所述获取目标用户的历史邮件以及所述目标用户的邮件操作历史日志的步骤,包括:
获取目标用户与其他用户之间邮件往来事件对应的历史邮件;其中,所述邮件往来事件包括:发送事件、抄送事件、回复事件和转发事件中的至少一项;
接收客户端发送的所述目标用户在预设统计周期内的邮件操作历史日志;其中,所述邮件操作历史日志包括以下信息中的至少一项:目标用户ID、邮件ID、操作ID、用户行为信息以及所述用户行为信息对应的行为时间。
3.根据权利要求2所述的电子邮件处理方法,其特征在于,所述根据所述历史邮件,确定所述目标用户的联络频繁子图的步骤,包括:
将所述目标用户确定为根节点,将所述其他用户确定为子节点,将所述历史邮件的往来路径确定为所述根节点与各个子节点之间的路径;
根据所述根节点、子节点以及对应的路径,构建所述目标用户与其他用户之间的联络频繁子图。
4.根据权利要求3所述的电子邮件处理方法,其特征在于,在所述根据所述根节点、子节点以及对应的路径,构建所述目标用户与其他用户之间的联络频繁子图的步骤之后,包括:
统计所述联络频繁子图中根节点与各个子节点之间路径的往来次数;
将往来次数低于预设阈值的子节点从所述联络频繁子图中删除。
5.根据权利要求2所述的电子邮件处理方法,其特征在于,所述根据所述邮件操作历史日志中的用户行为信息,生成所述目标用户的个性化行为特征的步骤,包括:
根据所述邮件操作历史日志,获取对邮件的浏览特征以及人工标记信息;
根据所述浏览特征和人工标记信息,确定所述目标用户的个性化行为特征。
6.一种电子邮件处理方法,应用于客户端,其特征在于,包括:
获取目标用户的本地用户行为以及服务器发送的归档特征信息;
根据所述本地用户行为和所述归档特征信息,确定所述目标用户的个性化排序权重;其中,所述归档特征信息包括:联络频繁子图和个性化行为特征;
根据所述个性化排序权重,对所述目标用户的邮件进行排序。
7.根据权利要求6所述的电子邮件处理方法,其特征在于,所述获取目标用户的本地用户行为以及服务器发送的归档特征信息的步骤包括:
获取目标用户对邮件的操作事件,生成对应的本地用户行为;其中,所述操作事件包括:邮件检索、邮件浏览、邮件标记和邮件处理中的至少一项;
根据所述本地用户行为,生成所述目标用户的邮件操作历史日志并发送至服务器;
接收所述服务器发送的归档特征信息;
其中,所述归档特性信息为所述服务器根据所述联络频繁子图和所述个性化行为特征确定的;所述联络频繁子图为所述服务器根据目标用户的历史邮件的路径信息确定的,所述个性化行为特征为所述服务器根据所述邮件操作历史日志中的用户行为信息生成的。
8.根据权利要求7所述的电子邮件处理方法,其特征在于,所述根据所述本地用户行为和所述归档特征信息,确定所述目标用户的个性化排序权重的步骤,包括:
根据公式计算本地用户行为中各个邮件的操作频率;
根据公式计算所述目标用户的个性化排序权重wi;其中,
其中,fij为目标用户在单位时间j内对邮件i的操作次数,ti表示本地用户行为中对邮件i进行操作的总时长,T表示本地用户行为的统计周期,fi′表示目标用户的个性化行为特征中对邮件i的操作次数;t′i表示个性化行为特征中对邮件i进行操作的总时长,θ和为排序权重系数。
9.根据权利要求8所述的电子邮件处理方法,其特征在于,在所述根据公式计算所述目标用户的个性化排序权重wi的步骤之前,还包括:
根据所述归档特征信息中的联络频繁子图,确定排序权重系数。
10.根据权利要求9所述的电子邮件处理方法,其特征在于,所述根据所述归档特征信息中的联络频繁子图,确定排序权重系数的步骤,包括:
根据所述联络频繁子图中各个子节点对应的历史邮件的分类信息,确定与所述子节点对应的历史邮件的排序权重系数;其中,分类信息不同所对应的排序权重系数不同。
11.一种电子邮件处理装置,应用于服务器,其特征在于,包括:
第一获取模块,用于获取目标用户的历史邮件以及所述目标用户的邮件操作历史日志;
第一处理模块,用于根据所述历史邮件,确定所述目标用户的联络频繁子图;
第二处理模块,用于根据所述邮件操作历史日志中的用户行为信息,生成所述目标用户的个性化行为特征;
第三处理模块,用于根据所述联络频繁子图和所述个性化行为特征,确定邮件的归档特征信息并发送至客户端。
12.一种服务器,其特征在于,包括如权利要求11所述的电子邮件处理装置。
13.一种电子邮件处理装置,应用于客户端,其特征在于,包括:
第二获取模块,用于获取目标用户的本地用户行为以及服务器发送的归档特征信息;
第四处理模块,用于根据所述本地用户行为和所述归档特征信息,确定所述目标用户的个性化排序权重;其中,所述归档特征信息包括:联络频繁子图和个性化行为特征;
排序模块,用于根据所述个性化排序权重,对所述目标用户的邮件进行排序。
14.一种客户端,其特征在于,包括如权利要求13所述的电子邮件处理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710053234.6A CN108347367B (zh) | 2017-01-24 | 2017-01-24 | 一种电子邮件处理方法、装置、服务器及客户端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710053234.6A CN108347367B (zh) | 2017-01-24 | 2017-01-24 | 一种电子邮件处理方法、装置、服务器及客户端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108347367A true CN108347367A (zh) | 2018-07-31 |
CN108347367B CN108347367B (zh) | 2021-01-15 |
Family
ID=62962017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710053234.6A Active CN108347367B (zh) | 2017-01-24 | 2017-01-24 | 一种电子邮件处理方法、装置、服务器及客户端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108347367B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110888806A (zh) * | 2019-11-15 | 2020-03-17 | 天津联想协同科技有限公司 | 一种接口测试方法、电子设备及存储介质 |
CN110909086A (zh) * | 2019-11-27 | 2020-03-24 | 珠海格力电器股份有限公司 | 邮件归档方法、系统、计算机设备和计算机可读存储介质 |
CN111105117A (zh) * | 2018-10-29 | 2020-05-05 | 微梦创科网络科技(中国)有限公司 | 一种用户信息的确定方法和装置 |
CN111723562A (zh) * | 2020-06-05 | 2020-09-29 | 完美世界控股集团有限公司 | 邮件阅读时长的显示方法、系统、存储介质以及计算设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075889A (ja) * | 1999-09-07 | 2001-03-23 | Nippon Telegr & Teleph Corp <Ntt> | 文書表示方法及び文書表示プログラムを格納した記憶媒体 |
CN101288061A (zh) * | 2005-04-19 | 2008-10-15 | 谷歌公司 | 基于活动的电子邮件排序的方法和系统 |
US20090094340A1 (en) * | 2007-10-05 | 2009-04-09 | Saar Gillai | Intelligence of the crowd electronic mail management system |
CN101751606A (zh) * | 2008-11-28 | 2010-06-23 | 国际商业机器公司 | 用于电子邮件的排序方法和系统 |
US20110004631A1 (en) * | 2008-02-26 | 2011-01-06 | Akihiro Inokuchi | Frequent changing pattern extraction device |
CN103152246A (zh) * | 2013-03-06 | 2013-06-12 | 广东欧珀移动通信有限公司 | 一种对电子邮件进行智能排序的方法及其系统 |
CN104508691A (zh) * | 2012-02-10 | 2015-04-08 | 国际商业机器公司 | 多层电子邮件优先级排序法 |
CN104808892A (zh) * | 2014-01-28 | 2015-07-29 | 中国移动通信集团公司 | 一种应用图标排序方法、装置、系统及相关设备 |
CN105630840A (zh) * | 2014-11-06 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 一种推送消息的排序方法及装置 |
CN106230690A (zh) * | 2016-07-25 | 2016-12-14 | 华中科技大学 | 一种结合用户属性的邮件分类方法及系统 |
-
2017
- 2017-01-24 CN CN201710053234.6A patent/CN108347367B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075889A (ja) * | 1999-09-07 | 2001-03-23 | Nippon Telegr & Teleph Corp <Ntt> | 文書表示方法及び文書表示プログラムを格納した記憶媒体 |
CN101288061A (zh) * | 2005-04-19 | 2008-10-15 | 谷歌公司 | 基于活动的电子邮件排序的方法和系统 |
US20090094340A1 (en) * | 2007-10-05 | 2009-04-09 | Saar Gillai | Intelligence of the crowd electronic mail management system |
US20110004631A1 (en) * | 2008-02-26 | 2011-01-06 | Akihiro Inokuchi | Frequent changing pattern extraction device |
CN101751606A (zh) * | 2008-11-28 | 2010-06-23 | 国际商业机器公司 | 用于电子邮件的排序方法和系统 |
CN104508691A (zh) * | 2012-02-10 | 2015-04-08 | 国际商业机器公司 | 多层电子邮件优先级排序法 |
CN103152246A (zh) * | 2013-03-06 | 2013-06-12 | 广东欧珀移动通信有限公司 | 一种对电子邮件进行智能排序的方法及其系统 |
CN104808892A (zh) * | 2014-01-28 | 2015-07-29 | 中国移动通信集团公司 | 一种应用图标排序方法、装置、系统及相关设备 |
CN105630840A (zh) * | 2014-11-06 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 一种推送消息的排序方法及装置 |
CN106230690A (zh) * | 2016-07-25 | 2016-12-14 | 华中科技大学 | 一种结合用户属性的邮件分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
DOUGLAS ABERDEEN,ET AL.: ""The Learning Behind Gmail Priority Inbox"", 《NIPS 2010 WORKSHOP ON LEARNING ON CORES,CLUSTERS AND CLOUDS》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105117A (zh) * | 2018-10-29 | 2020-05-05 | 微梦创科网络科技(中国)有限公司 | 一种用户信息的确定方法和装置 |
CN111105117B (zh) * | 2018-10-29 | 2023-06-23 | 微梦创科网络科技(中国)有限公司 | 一种用户信息的确定方法和装置 |
CN110888806A (zh) * | 2019-11-15 | 2020-03-17 | 天津联想协同科技有限公司 | 一种接口测试方法、电子设备及存储介质 |
CN110909086A (zh) * | 2019-11-27 | 2020-03-24 | 珠海格力电器股份有限公司 | 邮件归档方法、系统、计算机设备和计算机可读存储介质 |
CN111723562A (zh) * | 2020-06-05 | 2020-09-29 | 完美世界控股集团有限公司 | 邮件阅读时长的显示方法、系统、存储介质以及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108347367B (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101026802B (zh) | 一种信息推送方法与装置 | |
CN108347367A (zh) | 一种电子邮件处理方法、装置、服务器及客户端 | |
CN101189608B (zh) | 用于分析用户的Web历史的系统和方法 | |
CN108595461B (zh) | 兴趣探索方法、存储介质、电子设备及系统 | |
US7421429B2 (en) | Generate blog context ranking using track-back weight, context weight and, cumulative comment weight | |
CN103793489B (zh) | 一种在线社交网络中社群话题的发现方法 | |
CN106294661B (zh) | 一种扩展搜索方法与装置 | |
CN105868267B (zh) | 一种移动社交网络用户兴趣的建模方法 | |
CN101192235A (zh) | 一种基于用户特征推送广告的方法、系统及设备 | |
CN106772685B (zh) | 基于Web-GIS的相似台风匹配算法及软件支持系统 | |
CN101980199A (zh) | 基于态势评估的网络热点话题发现方法及系统 | |
CN103226393A (zh) | 一种输入方法和设备 | |
CN104484343A (zh) | 一种对微博进行主题发现与追踪的方法 | |
CN104102635B (zh) | 一种挖掘知识图谱的方法及装置 | |
CN106815310A (zh) | 一种对海量文档集的层次聚类方法及系统 | |
CN104077412B (zh) | 一种基于多Markov链的微博用户兴趣预测方法 | |
CN105335491A (zh) | 基于用户点击行为来向用户推荐图书的方法和系统 | |
CN112765480A (zh) | 一种信息推送方法、装置及计算机可读存储介质 | |
CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
CN110069619A (zh) | 房源展示方法、装置、设备及计算机可读存储介质 | |
CN103235826B (zh) | 一种时间窗口的调节方法 | |
CN110704753A (zh) | 一种基于时间序列性的个性化推荐方法 | |
CN106791221A (zh) | 一种基于通话的亲友圈关系识别方法 | |
CN105389330B (zh) | 一种跨社区开源资源匹配关联方法 | |
CN108491891A (zh) | 一种基于决策树局部相似性的多源在线迁移学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |