CN114175066A - 用于电子消息收发平台的无监督带注释数据收集框架 - Google Patents

用于电子消息收发平台的无监督带注释数据收集框架 Download PDF

Info

Publication number
CN114175066A
CN114175066A CN202080053350.8A CN202080053350A CN114175066A CN 114175066 A CN114175066 A CN 114175066A CN 202080053350 A CN202080053350 A CN 202080053350A CN 114175066 A CN114175066 A CN 114175066A
Authority
CN
China
Prior art keywords
message
electronic
messages
actionable
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080053350.8A
Other languages
English (en)
Inventor
S·什里瓦斯塔瓦
R·K·拉维
S·R·戈德哈内
P·阿格拉沃尔
M·P·库马尔
B·R·斯温
T·G·P·雷迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN114175066A publication Critical patent/CN114175066A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • H04L51/046Interoperability with other network applications or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

用于电子消息收发平台中的带注释数据收集的系统和方法。一种示例系统包括:机器学习数据库和电子处理器,电子处理器被通信地耦合到机器学习数据库。该电子处理器被配置成接收多个电子消息。该电子处理器被配置成从多个电子消息选择样本消息集。该电子处理器被配置成向样本消息集的每个电子消息添加可行动消息。该电子处理器被配置成从电子消息收发客户端接收可行动消息选择。可行动消息选择包括用户标签指示和消息标识符。该电子处理器被配置成将可行动消息选择存储在机器学习数据库中。

Description

用于电子消息收发平台的无监督带注释数据收集框架
技术领域
本文描述的实施例涉及训练机器学习模型,并且更具体地,涉及用于在电子消息收发平台中进行无监督(eyes-off)的带注释数据收集的系统和方法。
发明内容
机器学习模型用于增强电子消息收发系统和其他内容递送网络,等等。机器学习模型提供洞察力和行动,来改进用户体验和生产力。例如,机器学习允许电子邮件系统:在附件中自动执行关键字标记,检测垃圾邮件、钓鱼和其他类型的不想要或有害的消息,设置电子邮件的敏感度水平,标识消息主题,标识消息的重要性,标识消息语气等。这些机器学习模型的有效性尤其取决于监督学习技术的训练集分类的准确性。例如,在贝叶斯垃圾邮件过滤中,算法被手动教导垃圾邮件与非垃圾邮件之间的区别。过滤的有效性取决于用于训练算法的消息的地面真值(ground truth)。地面真值中的不准确导致机器学习模型的结果中的不准确。
针对组织的电子邮件系统的理想训练数据是由该系统的用户产生的电子邮件。然而,数据隐私问题和其他考虑因素不允许组织外部的其他人手动检查该数据。存在公开可用的电子邮件数据源(例如,Enron公共电子邮件档案和Avocado公共电子邮件档案)以供在训练机器学习模型时使用。然而,使用这些档案存在几个缺点。跨多个模型和组织手动分类电子邮件既费时又费钱。档案特定于它们的用户群(base),并且可能不直接适用于另一组织。此外,沟通方式和习俗会随时间而演变,并且可用的档案会在时间上老化和固定。
因此,为了在维持数据安全性的同时,为多个组织生成有用的训练数据,本文描述的实施例利用用户输入,来为采用组织数据的组织的机器学习模型生成地面实况。本文描述的实施例选择性地向组织的用户呈现针对电子邮件消息的可能标签。用户选择的标签用于强化现有的机器学习模型。使用本文呈现的实施例,带注释的训练数据集以无监督的方式(即,不使用外部人类注释者)来被生成。所得的训练数据集使用特定于组织的数据,而不会将数据暴露给组织外部的各方。这种实施例使得多个合作方能够使用具有个体定制的机器学习模型的公共消息收发平台,这些机器学习模型特定于他们相应的组织并且符合适用的数据安全和隐私法规。
使用本文呈现的实施例,机器学习模型能够产生更准确的结果,从而改善用户体验。因此,本文描述的实施例导致对计算系统资源的更有效使用,并且导致对电子消息收发和针对用户的其他计算系统的改进操作。
特别地,一个实施例提供了一种用于电子消息收发平台中的带注释数据收集的系统。该系统包括机器学习数据库和电子处理器,电子处理器被通信耦合到机器学习数据库。电子处理器被配置成接收多个电子消息。电子处理器被配置成从多个电子消息选择样本消息集。电子处理器被配置成向样本消息集的每个电子消息添加可行动消息。电子处理器被配置成从电子消息收发客户端接收可行动消息选择。可行动消息选择包括用户标签指示和消息标识符。电子处理器被配置成将可行动消息选择存储在机器学习数据库中。
另一实施例提供了一种用于电子消息收发平台中的带注释数据收集的方法。该方法包括接收多个电子消息。该方法包括:利用电子处理器,基于至少一个限定符,从多个电子消息选择多个符合限定的电子消息。该方法包括利用电子处理器从多个符合限定的电子消息选择样本消息集。该方法包括向样本消息集的每个电子消息添加可行动消息。该方法包括从电子消息收发客户端接收可行动消息选择。可行动消息选择包括用户标签指示和消息标识符。该方法包括将可行动消息选择存储在机器学习数据库中,机器学习数据库被通信地耦合到电子消息收发平台。
又一实施例提供了一种非暂态计算机可读介质,其包括由电子处理器可执行以执行功能集合的指令。该功能集合包括接收多个电子消息。该功能集合包括:基于至少一个限定符,从多个电子消息选择多个符合限定的电子消息。该功能集合包括从多个符合限定的电子消息选择样本消息集。该功能集合包括向样本消息集的每个电子消息添加可行动消息。该功能集合包括从电子消息收发客户端接收可行动消息选择,可行动消息选择包括用户标签指示和消息标识符。该功能集合包括将可行动消息选择存储在机器学习数据库中,机器学习数据库被通信地耦合到电子消息收发平台。
附图说明
图1示意性地图示了根据一些实施例的用于电子消息收发平台中的带注释数据收集的系统。
图2示意性地图示了根据一些实施例的电子消息收发服务器。
图3是根据一些实施例的流程图,其图示了由图1的系统执行的方法,以用于电子消息收发平台中的带注释数据收集。
图4是根据一些实施例的,使用图3的方法利用可行动消息进行戳记的示例电子邮件消息。
图5是根据一些实施例的,使用图3的方法利用可行动消息进行戳记的示例电子邮件消息。
具体实施方式
在以下描述和附图中描述和说明了一个或多个实施例。这些实施例不限于本文所提供的特定细节,并且可以以各种方式被修改。此外,可以存在本文未描述的其他实施例。此外,本文描述的由一个组件执行的功能可以以分布式方式由多个组件来执行。同样地,由多个组件执行的功能可以被合并,并且由单个组件来执行。类似地,被描述为执行特定功能的组件也可以执行本文未描述的其他功能。例如,以某种方式“配置”的设备或结构至少以该方式进行配置,但也可以以未列出的方式进行配置。此外,本文描述的一些实施例可以包括一个或多个电子处理器,该一个或多个电子处理器被配置成通过执行存储在非暂态计算机可读介质中的指令来执行所描述的功能。类似地,本文描述的实施例可以被实现为非暂态计算机可读介质存储,其存储有由一个或多个电子处理器可执行以执行所描述的功能的指令。如在本申请中所使用的,“非暂态计算机可读介质”包括所有计算机可读介质,但不包括暂态的传播信号。因此,非暂态计算机可读介质可以包括例如硬盘、CD-ROM、光学存储设备、磁存储设备、ROM(只读存储器)、RAM(随机存取存储器)、寄存器存储器、处理器高速缓存或者其任何组合。
此外,本文使用的措辞和术语只是为了描述的目的,其不应当被认为是限制性的。例如,本文中对于“包括”、“含有”、“包含”、“具有”及其变型的使用,旨在涵盖其后列出的项及其等同物以及其他项。术语“连接”和“耦合”被广泛使用,并且涵盖直接和间接连接和耦合。此外,“连接”和“耦合”不限于物理或机械连接或耦合,并且可以包括电连接或耦合,无论是直接的还是间接的。此外,可以使用有线连接、无线连接或其组合来执行电子通信和通知,并且可以通过各种类型的网络、通信信道和连接,直接地或通过一个或多个中间设备来发送电子通信和通知。此外,本文可以使用诸如第一和第二、顶部和底部的关系术语,以仅用于将一个实体或行动与另一实体或行动区分开,而不是必须要求或暗示这些实体或行动之间的任何实际的这种关系或顺序。
图1图示了用于电子消息收发平台102中的自动的带注释数据收集的示例系统100。作为示例,电子消息收发平台102被图示为电子邮件消息收发平台,其包括经由电子邮件客户端108向用户106提供电子邮件消息收发服务的用户分片104。为了便于描述,示例电子消息收发平台102被图示为具有为单个电子邮件客户端108提供电子邮件服务的单个用户分片104。应当理解,电子消息收发平台102的实施例可以包括多个用户分片,以用于为数十、数百或数千个用户和电子邮件客户端服务。附加于电子邮件或者代替电子邮件,电子消息收发平台102的实施例可以为用户提供其他形式的电子消息收发或内容递送。
如图1中所示,系统100包括标记服务110和机器学习引擎112。应当理解,系统100作为一个示例被提供,并且在一些实施例中,系统100可以包括更少或附加的组件。例如,系统100可以包括多个标记服务、多个机器学习引擎、电子消息收发平台或其组合。
电子消息收发平台102、电子邮件客户端108、机器学习引擎112和其他所图示的组件经由通信网络114通信地耦合。通信网络114可以使用广域网(例如,互联网)、局域网(例如,以太网或Wi-FiTM网络)、蜂窝数据网络(例如,长期演进(LTETM)网络),以及它们的组合或衍生来实现。
在一些实施例中,电子消息收发平台102利用包括电子邮件消息收发服务器200(图2中示意性地图示)的计算环境来实现。如图2中所示,电子邮件消息收发服务器200包括电子处理器202(例如,微处理器、专用集成电路(ASIC)或其他适当的电子设备)、存储设备204(例如,非暂态、计算机可读存储介质),以及通信接口206(诸如收发器,用于通过通信网络114和可选的一个或多个附加通信网络或连接进行通信)。应当理解,在各种配置中,电子邮件消息收发服务器200可以包括除图2中所示的那些组件之外的附加组件,并且可以执行除本申请中描述的功能之外的附加功能。此外,应当理解,本文描述为由电子邮件消息收发服务器200执行的功能可以分布在多个设备(诸如多个服务器)中间,并且可以通过云计算平台提供,由系统100的组件经由通信网络114可访问。
电子邮件消息收发服务器200中包括的电子处理器202、存储设备204和通信接口206通过一个或多个通信线路或总线或其组合通信地耦合。电子处理器202被配置成从存储设备204检索并且尤其执行软件以执行本文描述的方法(例如,标记服务110)。
返回图1,电子邮件客户端108、标记服务110和机器学习引擎112经由通信网络114交换信息,并且操作以自动注释和收集数据以训练机器学习模型116。如本文所述,机器学习模型116向电子消息收发平台102的用户提供智能洞察。电子消息收发平台102操作,以经由一个或多个网络远程地向用户(例如,用户106)提供电子消息收发服务。在一些实施例中,电子消息收发平台102在Microsoft Office
Figure BDA0003485668280000061
平台上操作。在一些实施例中,电子消息收发平台102提供其他内容递送服务,诸如微软生产的
Figure BDA0003485668280000062
Figure BDA0003485668280000063
平台。
在所图示的示例中,电子消息收发平台102提供用户分片104。用户分片104是个体用户(例如,用户106)可访问的离散计算实例。用户106与电子邮件客户端108(例如,Microsoft
Figure BDA0003485668280000064
客户端)交互以发送和接收电子邮件(例如,被存储在用户邮箱118中)。如本文详细描述的,标记服务110分析来自用户邮箱118的电子邮件(在将这些电子邮件呈现给电子邮件客户端108之前),并且选择性地利用可行动消息对电子邮件进行戳记(stamp)。可行动消息在用户打开电子邮件时被呈现,并且请求用户提供对电子邮件的反馈。例如,可行动消息可以要求用户选择适用于电子邮件的标签(例如,“重要”或“不重要”)。当用户106利用电子邮件客户端108察看电子邮件时,可行动消息被选择性地呈现给用户106。如本文详细描述的,用户106与可行动消息交互以生成可行动消息选择(包括用户反馈),可行动消息选择被存储在用户邮箱118中并且被传送到标记服务110以进行处理。标记服务110将来自可行动消息选择的数据传送到机器学习引擎112中以进行处理和存储。
在一些实施例中,机器学习引擎112是网络附接的、并且可访问的计算机服务器,其包括与电子邮件消息收发服务器200类似的组件。机器学习引擎112包括数据库120。数据库120电子地存储与从标记服务110接收的电子邮件消息和可行动消息数据有关的信息。在所图示的实施例中,数据库120被本地存储在机器学习引擎112上。在备选实施例中,数据库120是安装在适当的数据库服务器上的数据库,该数据库服务器通信地耦合到机器学习引擎112和标记服务110并且由机器学习引擎112和标记服务110可访问。在一些实施例中,数据库120是系统100外部的基于云的数据库系统的一部分,并且由机器学习引擎112和标记服务110通过一个或多个附加网络可访问。
在一些实施例中,如图1中所示,数据库120电子地存储或访问消息数据。消息数据包括消息内容、消息标签、消息元数据、消息用户数据和元数据、针对消息的推断数据以及针对消息的上下文数据。消息数据还包括如由标记服务110提供的可行动消息选择数据。
机器学习引擎112使用各种机器学习方法来分析针对电子邮件消息收发平台的用户的电子邮件消息,并且应用预测的消息标签。例如,机器学习引擎112执行机器学习模型116,以自动标记针对用户邮箱118的电子邮件。自动标记可以包括:标识电子邮件消息的重要性,标识要被发送的电子邮件消息的语气(例如,消息是否可能被解释为性质过于苛刻),标识潜在的垃圾邮件消息,标识电子邮件的主题,等等。机器学习通常是指计算机程序无需明确编程即可学习的能力。在一些实施例中,计算机程序(例如,学习引擎)被配置成基于输入构建算法。有监督学习涉及向计算机程序呈现示例输入及其期望输出。计算机程序被配置成学习通用规则,该通用规则将输入映射到来自它接收的训练数据的输出。示例机器学习引擎包括决策树学习、关联规则学习、人工神经网络、分类器、归纳逻辑编程、支持向量机、聚类、贝叶斯网络、强化学习、表示学习、相似性和度量学习、稀疏字典学习和遗传算法。使用所有这些方法,计算机程序可以摄取、解析和理解数据,并且逐步完善数据分析的算法。
在所图示的示例中,机器学习引擎112包括单个机器学习模型116。然而,机器学习引擎112的实施例包括多个机器学习模型以提供对多种类型的标签、多个用户或两者的自动电子邮件分析。在一些实施例中,机器学习引擎112可以独立于系统100,并且例如由合作方122操作,并且由系统100的组件通过一个或多个介入通信网络可访问。
在一些实施例中,系统100和电子消息收发平台102可以由一个或多个合作方122使用。合作方122是一组用户,例如,组织或组织内的部门。系统100的实施例操作以从合作方122接收合作方标记请求。如本文详细描述的,合作方标记请求包括用于建立一个或多个机器学习模型的数据和参数,该一个或多个机器学习模型用于为合作方122的用户分析消息。在一些实施例中,合作方标记请求作为将合作方加入电子消息收发平台102的一部分而被接收。在一些实施例中,合作方标记请求包括初始机器学习模型,初始机器学习模型被传送到机器学习引擎112以进行执行和训练,如本文所述。在一些实施例中,合作方标记请求包括显示特定可行动消息的请求,而不管电子邮件的资格。
图3图示了用于电子消息收发平台中的带注释数据收集的示例方法300。方法300被描述为由系统100执行,并且特别地,如由电子处理器202执行的标记服务110。然而,应当理解,在一些实施例中,方法300的部分可以由其他设备执行,包括例如机器学习引擎112和电子邮件客户端108。作为示例,根据标记服务110和其他组件来描述方法300,标记服务110和其他组件操作以收集单个电子消息收发平台102的样本数据。然而,应当理解,方法300的实施例可以与以各种组合布置的多种数量和类型的消息收发平台一起使用。还应当理解,方法300的实施例可以由包括多于一个的用户分片104或机器学习引擎112的系统100的实施例使用。
在框302处,电子处理器202接收多个电子消息。例如,电子处理器202监测用户邮箱118的电子邮件消息,这些电子邮件消息被递送到用户106的用户邮箱118,或者经由电子邮件客户端108被发送到用户邮箱118以递送给其他用户。在允许电子邮件客户端108访问所递送的消息或者转发所发送的消息之前,标记服务处理电子邮件以进行可行动消息标记。
例如,在框304处,电子处理器202从多个电子消息选择样本消息集。样本消息集包括多个电子消息的子集,其可以通过多种方式来选择。在一些实施例中,电子处理器202通过从多个电子消息选择随机样本来选择样本消息集。例如,电子处理器202可以随机选择所有消息的10%用于样本消息集。
在一些实施例中,标记服务110保持已经具有可行动消息戳记的电子邮件消息的运行总数。在一些实施例中,电子处理器202基于经戳记的消息的运行总数来选择样本消息集。例如,可能存在期望数目的消息以用于训练特定机器学习模型。在先到先得的基础上,电子处理器202选择电子邮件消息直到已经选择了足够的数目为止,在此时,电子处理器停止选择针对样本集的电子邮件消息。在这种实施例中,在机器学习模型的分析指示需要更多训练时,电子处理器202可以例如重新开始选择样本消息。
在一些实施例中,电子处理器202选择每个电子邮件消息以包括在样本消息集中。在这种实施例中,电子处理器202向所有电子消息添加可行动消息,并且控制向用户106显示可行动消息(例如,使用电子邮件客户端108)。在一些实施例中,标记服务110可以通过显示一定数目的可行动消息来收集样本,而不管用户对多少可行动消息采取行动。例如,可以这样做来避免用户群因针对消息分析的请求而过度饱和。例如,当呈现的可行动消息的总数目不超过所需样本数目(向用户显示的可行动消息的总数目,不管用户选择如何)时,电子处理器202可以向电子消息的用户显示可行动消息。
在一些实施例中,标记服务110可以通过显示可行动消息来收集样本消息,直到它接收到足够数量的用户反馈来训练机器学习模型为止。例如,当接收到的可行动消息选择的总数目不超过所需收集数目(所需的可行动消息选择的总数目)时,电子处理器202向电子消息的用户显示可行动消息。
在一些实施例中,在选择样本集之前,电子处理器202基于至少一个限定符,从多个电子消息选择多个符合限定的电子消息。在这种实施例中,电子处理器202从多个符合限定的电子消息选择样本消息集。限定符是用于选择要包括在(或排除在)样本集中的消息的标准。例如,在机器学习模型被用于确定消息的重要性的情况下,限定符可以基于用户在组织内的排名。在另一示例中,仅可以选择组织内的某些用户集来分布载荷,或者实现用户类型的均匀分布。在一些实施例中,针对消息的预测标签(由机器学习模型的当前迭代生成)用于限定用于包括在样本集中的消息。例如,可以从样本集中排除标记有非常高置信度(例如,90%)的消息,以便将关于目前更难以分类的消息来收集用户数据。通过仅限定这种消息,用户无需为简单案例提供反馈,并且机器学习模型被提供更有用的训练数据。
过于频繁地向用户呈现针对反馈的请求可能导致收益递减。相应地,在一些实施例中,针对样本消息集的每个电子消息,电子处理器202将自上次向电子消息的接收方呈现可行动消息以来的时间段与时间间隔执行阈值(例如,1周)进行比较。当该时间段不超过时间间隔执行阈值时,电子处理器202从样本消息集移除该电子消息。在该示例中,如果用户在上周已经提供了反馈,则不会要求接收方提供关于消息的反馈。这鼓励用户参与,因为用户知道如果他们提供反馈,他们至少在一周内不会被要求再次这样做。
不管样本消息集如何被选择,在框306处,电子处理器202都向样本消息集的每个电子消息添加可行动消息。例如,可行动消息(包括轻推消息和针对消息的一个或多个可能标签)被添加到电子邮件消息的标题中。当被用户打开时,可行动消息将出现为信息栏(InfoBar)轻推,并且请求针对电子邮件消息的特定标签。例如,图4图示了电子邮件消息400,包括示例可行动消息402。可行动消息402包括轻推消息404和可能的标签406。在另一示例中,图5图示了电子邮件消息500,包括示例可行动消息502。可行动消息502包括轻推消息405和可能的标签506。
在一些实施例中,电子处理器202接收合作方标记请求,合作方标记请求包括轻推消息、一个或多个可能的消息标签和一个或多个限定符(如本文所述,被用于生成多个符合限定的电子消息)。
在一些实施例中,可以使用多个机器学习模型,并且对每个机器学习模型使用不同类型的可行动消息(请求不同的标签)。在这种实施例中,电子处理器202可以在循环(round robin)的基础上利用可行动消息类型来戳记消息。
经戳记的电子邮件消息被递送到用户邮箱118,并且由用户106例如使用电子邮件客户端108访问。当用户与可行动消息交互,选择标签时,可行动消息选择被存储在用户邮箱118中并且被传送到标记服务110。
在框308处,电子处理器202从电子消息收发客户端(例如,电子邮件客户端108)接收可行动消息选择。可行动消息选择包括用户标签指示和消息标识符。用户标签标识指示由用户所选择的标签,并且消息标识符唯一地标识电子消息收发平台102内的电子邮件。在一些实施例中,可行动消息选择还包括附加数据(例如,标识用户的数据、上下文数据,等等)。
许多电子邮件消息被发送给多于一人,在该情况下,多个用户可以对相同消息提供可行动消息选择。在一些实施例中,电子处理器202接收与单个消息标识符相关联的多个可行动消息选择。为了向机器学习引擎112提供干净的训练数据,标记服务110确定与单个消息标识符相关联的聚合标签。例如,电子处理器202可以对所接收的标签应用多数函数。
在框310处,电子处理器202将可行动消息选择存储在机器学习数据库中。一旦被存储在机器学习数据库中,标签和消息数据就被机器学习引擎112用来训练和改进机器学习模型116。如本文所述的,机器学习引擎112可以针对多个合作方实现多个机器学习模型。在这种实施例中,针对每个合作方的可行动消息选择数据被单独存储在专用于每个合作方的单独数据源中。一个合作方的数据不被用来训练另一合作方的机器学习模型。
在一些实施例中,标记服务110估计预测标签的质量。例如,电子处理器202从机器学习引擎112接收与消息标识符相关联的预测标签。电子处理器202从机器学习数据库120检索来自可行动消息选择的用户标签指示,该可行动消息选择与消息标识符相关联。电子处理器202然后将预测标签与用户标签指示进行比较以生成标签质量水平。在一些实施例中,随着模型被迭代以生成滚动平均质量水平,随着时间将预测标签与用户提供的标签进行比较。这允许标记服务110在无需第三方审查底层合作方数据的情况下持续衡量机器学习模型训练的成功。这维护了合作方数据的机密性。
在所附权利要求中阐述了一些实施例的各种特征和优点。

Claims (15)

1.一种用于电子消息收发平台中的带注释数据收集的系统,所述系统包括:
机器学习数据库;
电子处理器,被通信地耦合到所述机器学习数据库,并且被配置成:
接收多个电子消息;
从所述多个电子消息选择样本消息集;
向所述样本消息集的每个电子消息添加可行动消息;
从电子消息收发客户端接收可行动消息选择,所述可行动消息选择包括用户标签指示和消息标识符;以及
将所述可行动消息选择存储在所述机器学习数据库中。
2.根据权利要求1所述的系统,其中所述电子处理器还被配置成:
基于至少一个限定符,从所述多个电子消息选择多个符合限定的电子消息;以及
从所述多个所述符合限定的电子消息,选择所述样本消息集。
3.根据权利要求1所述的系统,其中所述电子处理器还被配置成:
通过从所述多个电子消息选择随机样本,来选择样本消息集。
4.根据权利要求1所述的系统,其中所述电子处理器还被配置成:
基于经戳记消息的运行总数,来选择样本消息集。
5.根据权利要求1所述的系统,其中所述电子处理器还被配置成:
向所述多个电子消息中的每个电子消息添加可行动消息;以及
针对所述多个电子消息中的每个电子消息,当被呈现的可行动消息的总数目不超过所需样本数目时,向所述电子消息的用户显示所述可行动消息。
6.根据权利要求1所述的系统,其中所述电子处理器还被配置成:
向所述多个电子消息中的每个电子消息添加可行动消息;以及
针对所述多个电子消息中的每个电子消息,当接收到的可行动消息选择的总数目不超过所需收集数目时,向所述电子消息的用户显示所述可行动消息。
7.根据权利要求1所述的系统,其中所述电子处理器还被配置成:
针对所述样本消息集的每个电子消息,
将自可行动消息最后被呈现给所述电子消息的接收方以来的时间段与时间间隔执行阈值进行比较;以及
当所述时间段不超过所述时间间隔执行阈值时,从所述样本消息集移除所述电子消息。
8.根据权利要求1所述的系统,其中所述电子处理器还被配置成:
接收与单个消息标识符相关联的多个可行动消息选择;以及
确定与所述单个消息标识符相关联的聚合标签。
9.根据权利要求1所述的系统,其中所述电子处理器还被配置成:
接收合作方标记请求,所述合作方标记请求包括轻推消息、至少一个消息标签和至少一个限定符;并且
其中所述可行动消息包括所述轻推消息和所述至少一个消息标签。
10.根据权利要求1所述的系统,其中所述电子处理器还被配置成:
从机器学习引擎接收与消息标识符相关联的预测标签;
从所述机器学习数据库,检索来自与所述消息标识符相关联的所述可行动消息选择的所述用户标签指示;以及
将所述预测标签与所述用户标签指示进行比较,以生成标签质量水平。
11.一种用于电子消息收发平台中的带注释数据收集的方法,所述方法包括:
接收多个电子消息;
利用电子处理器,基于至少一个限定符,从所述多个电子消息选择多个符合限定的电子消息;
利用所述电子处理器,从所述多个符合限定的电子消息选择样本消息集;
向所述样本消息集的每个电子消息添加可行动消息;
从电子消息收发客户端接收可行动消息选择,所述可行动消息选择包括用户标签指示和消息标识符;以及
将所述可行动消息选择存储在机器学习数据库中,所述机器学习数据库被通信地耦合到所述电子消息收发平台。
12.根据权利要求11所述的方法,还包括:
向所述多个电子消息中的每个电子消息添加可行动消息;以及
针对所述多个电子消息中的每个电子消息,当被呈现的可行动消息的总数目不超过所需样本数目时,向所述电子消息的用户显示所述可行动消息。
13.根据权利要求11所述的方法,还包括:
向所述多个电子消息中的每个电子消息添加可行动消息;以及
针对所述多个电子消息中的每个电子消息,当接收到的可行动消息选择的总数目不超过所需收集数目时,向所述电子消息的用户显示所述可行动消息。
14.根据权利要求11所述的方法,还包括:
针对所述样本消息集的每个电子消息,
将自可行动消息最后被呈现给所述电子消息的接收方以来的时间段与时间间隔执行阈值进行比较;以及
当所述时间段不超过所述时间间隔执行阈值时,从所述样本消息集移除所述电子消息。
15.根据权利要求11所述的方法,其中所述电子处理器还被配置成:
从机器学习引擎接收与消息标识符相关联的预测标签;
从所述机器学习数据库,检索来自与所述消息标识符相关联的所述可行动消息选择的所述用户标签指示;以及
将所述预测标签与所述用户标签指示进行比较,以生成标签质量水平。
CN202080053350.8A 2019-07-25 2020-05-27 用于电子消息收发平台的无监督带注释数据收集框架 Pending CN114175066A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/521,982 US20210027104A1 (en) 2019-07-25 2019-07-25 Eyes-off annotated data collection framework for electronic messaging platforms
US16/521,982 2019-07-25
PCT/US2020/034607 WO2021015848A1 (en) 2019-07-25 2020-05-27 Eyes-off annotated data collection framework for electronic messaging platforms

Publications (1)

Publication Number Publication Date
CN114175066A true CN114175066A (zh) 2022-03-11

Family

ID=71741885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080053350.8A Pending CN114175066A (zh) 2019-07-25 2020-05-27 用于电子消息收发平台的无监督带注释数据收集框架

Country Status (4)

Country Link
US (1) US20210027104A1 (zh)
EP (1) EP3987405A1 (zh)
CN (1) CN114175066A (zh)
WO (1) WO2021015848A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3090927A1 (fr) * 2018-12-21 2020-06-26 Orange Procédé de traitement de messages de nature éphémère dans une messagerie électronique et système de traitement correspondant
US20220012535A1 (en) * 2020-07-08 2022-01-13 Vmware, Inc. Augmenting Training Data Sets for ML Classifiers Using Classification Metadata
US11494851B1 (en) * 2021-06-11 2022-11-08 Winter Chat Pty Ltd. Messaging system and method for providing management views

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454406B2 (en) * 2005-04-29 2008-11-18 Adaptec, Inc. System and method of handling file metadata
US8972495B1 (en) * 2005-09-14 2015-03-03 Tagatoo, Inc. Method and apparatus for communication and collaborative information management
US7873619B1 (en) * 2008-03-31 2011-01-18 Emc Corporation Managing metadata
US8682819B2 (en) * 2008-06-19 2014-03-25 Microsoft Corporation Machine-based learning for automatically categorizing data on per-user basis
US8185492B2 (en) * 2008-08-14 2012-05-22 Google Inc. Messaging application with multiple viewports for presenting messages in different orders
WO2012046256A2 (en) * 2010-10-08 2012-04-12 Optical Fusion Inc. Audio acoustic echo cancellation for video conferencing
US8859130B2 (en) * 2011-03-11 2014-10-14 GM Global Technology Operations LLC Battery cover for a high voltage automotive battery
US10291562B2 (en) * 2013-05-20 2019-05-14 International Business Machines Corporation Embedding actionable content in electronic communication
US9866645B2 (en) * 2013-09-13 2018-01-09 Visa International Service Association Actionable notifications apparatuses, methods and systems
WO2016172027A1 (en) * 2015-04-21 2016-10-27 Wal-Mart Stores, Inc. Inventory information distribution systems, devices and methods
US10225220B2 (en) * 2015-06-01 2019-03-05 Facebook, Inc. Providing augmented message elements in electronic communication threads
US10193833B2 (en) * 2016-03-03 2019-01-29 Oath Inc. Electronic message composition support method and apparatus
US10911389B2 (en) * 2017-02-10 2021-02-02 Microsoft Technology Licensing, Llc Rich preview of bundled content
US10740557B1 (en) * 2017-02-14 2020-08-11 Casepoint LLC Technology platform for data discovery
US11263470B2 (en) * 2017-11-15 2022-03-01 Adobe Inc. Saliency prediction for informational documents
CN208044756U (zh) * 2017-12-18 2018-11-02 上海云拿智能科技有限公司 无人售货系统
US11321629B1 (en) * 2018-09-26 2022-05-03 Intuit Inc. System and method for labeling machine learning inputs
US10965691B1 (en) * 2018-09-28 2021-03-30 Verizon Media Inc. Systems and methods for establishing sender-level trust in communications using sender-recipient pair data
EP3938931A4 (en) * 2019-03-11 2022-12-07 Parexel International, LLC METHODS, DEVICE AND SYSTEMS FOR ANNOUNCING TEXT DOCUMENTS
US20200380067A1 (en) * 2019-05-30 2020-12-03 Microsoft Technology Licensing, Llc Classifying content of an electronic file
US11106747B2 (en) * 2019-06-18 2021-08-31 International Business Machines Corporation Online content management
US11640539B2 (en) * 2019-07-08 2023-05-02 Vianai Systems, Inc. Techniques for visualizing the operation of neural networks using samples of training data

Also Published As

Publication number Publication date
US20210027104A1 (en) 2021-01-28
WO2021015848A1 (en) 2021-01-28
EP3987405A1 (en) 2022-04-27

Similar Documents

Publication Publication Date Title
US10785185B2 (en) Automated summary of digital group conversations
US20180253659A1 (en) Data Processing System with Machine Learning Engine to Provide Automated Message Management Functions
US10911382B2 (en) Personalized message priority classification
US9282073B1 (en) E-mail enhancement based on user-behavior
US20230353513A1 (en) Determining reply content for a reply to an electronic communication
US10623362B1 (en) Message grouping techniques
CN114175066A (zh) 用于电子消息收发平台的无监督带注释数据收集框架
US9311415B2 (en) Generating contact suggestions
US20180314761A1 (en) Method and system for providing subscribe and unsubscribe recommendations
US20180025441A1 (en) Evaluating an impact of a user's content utilized in a social network
EP2701351A1 (en) Electronic messaging system utilizing social classification rules
US20150317609A1 (en) Company personnel asset engine
US20170068904A1 (en) Determining the Destination of a Communication
US10581789B2 (en) Managing multiple messages
WO2017173063A1 (en) Updating messaging data structures to include predicted attribute values associated with recipient entities
US11140115B1 (en) Systems and methods of applying semantic features for machine learning of message categories
US10210248B2 (en) Computer-readable recording medium, display control method, and information processing device
EP3101574A1 (en) Data quality management system and method
US10599658B2 (en) Search device, search method, and non-transitory computer readable medium for performing a search for candidate experts and displaying results of the search
JP4802523B2 (ja) 電子メッセージ分析装置および方法
WO2021022900A1 (zh) 识别文本的方法及装置
US20170041277A1 (en) Method for distributing a message
CN114386734A (zh) 使用人工智能和机器学习用于技术分析的企业管理系统
CN112200961B (zh) 页面生成方法、装置、系统、电子设备和计算机可读介质
US20240152696A1 (en) Building and using target-based sentiment models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination