CN113678156A

CN113678156A - 用于使用神经序列模型进行客户旅程事件表示学习和结果预测的系统和方法

Info

Publication number: CN113678156A
Application number: CN202080025736.8A
Authority: CN
Inventors: S·内吉; M·达布罗夫斯基; A·甘纳帕提拉珠; E·穆尼奥斯; V·E·拉加文德拉; F·I·怀斯
Original assignee: Genesys Telecommunications Laboratories Inc
Current assignee: Genesys Cloud Services Inc
Priority date: 2019-04-09
Filing date: 2020-04-09
Publication date: 2021-11-19
Also published as: EP3918560A1; CA3134541A1; JP2022527208A; WO2020210411A1; BR112021019673A2; JP7500604B2; AU2020271841A1; US20200327444A1; US11568305B2

Abstract

本发明提供了一种用于使用神经序列模型进行客户旅程事件表示学习和结果预测的系统和方法。将多个事件输入到模块中，其中每个事件具有包括事件的特性及其模态(web点击、呼叫、电子邮件、聊天等)的模式。不同模态的事件可使用不同的模式捕获，并且因此本文所述的实施方案是模式不可知的。由模块将每个事件表示为一定数量的数量的向量，其中针对每次客户访问总共生成多个向量。然后在序列学习中使用向量，以使用机器学习算法诸如递归神经网络实时预测客户旅程中的接下来的最佳动作或结果概率。

Description

用于使用神经序列模型进行客户旅程事件表示学习和结果预测的系统和方法

背景技术

本发明整体涉及电信系统和方法，以及通过使用诸如预测分析、机器学习、浏览器WebRTC和VoIP插件的技术进行的网站、移动应用程序、分析和联络中心的交互。

相关申请和优先权要求的交叉引用

本申请涉及于2014年4月14日提交的名称为“System and Method forInteraction Routing by Applying Predictive Analytics and Machine Learning toWeb and Mobile Application Content”的美国临时申请61/979,479，该美国临时申请转换为于2015年4月14日提交的名称同样为“System and Method for Interaction Routingby Applying Predictive Analytics and Machine Learning to Web and MobileApplication Content”的待审美国专利申请14/686,404以及于2019年3月13日提交的名称同样为“System and Method for Interaction Routing by Applying PredictiveAnalytics and Machine Learning to Web and Mobile Application Content”的相关的待审分案专美国利申请16/352,022。本申请要求于2019年4月9日提交的名称同样为“System and Method for Customer Journey Event Representation Learning andOutcome Prediction Using Neural Sequence Models”的美国专利申请16/379,110的优先权，这些申请的内容并入本文中。

发明内容

本发明提供了一种用于使用神经序列模型进行客户旅程事件表示学习和结果预测的系统和方法。将多个事件输入到模块中，其中每个事件具有包括事件的特性及其模态(web点击、呼叫、电子邮件、聊天等)的模式。不同模态的事件可使用不同的模式捕获，并且因此本文所述的实施方案是模式不可知的。由该模块将每个事件表示为一定数量的数量的向量，其中针对每次客户访问总共生成多个向量。然后在序列学习中使用这些向量，以使用机器学习算法诸如递归神经网络实时预测客户旅程中的接下来的最佳动作或结果概率。

在一个实施方案中，提供了一种用于将来自网站上的多个客户浏览会话的原始客户旅程事件数据转换成机器学习可摄取数据集以用于获取web事件的向量表示的方法，该方法包括：记录并存储来自这些浏览会话的事件，其中这些事件包括来自该多个客户的活动数据；预处理在该网站上捕获的该原始数据，其中该预处理还包括以下步骤：移除或掩蔽/加密包含个人可识别信息的所有列中的值；识别在模型训练期间需要预测的类属性；识别并移除复制类属性的列；移除阵列类型数据；移除时间戳数据；将所有布尔类型列转换成整数类型；以及替换所有空值和未知值；以及获取这些可摄取数据集，这些可摄取数据集能够应用于用来获取web事件的向量表示的算法。

事件可以共同模式存储。这些预处理步骤可按顺序次序执行。将所有布尔类型数据转换成整数类型还包括：用1替换“真”，并且用0替换“假”。替换所有空值和未知值还包括：针对整数类型用1、针对双重类型用0.0并且针对字符串类型用“未知”替换所有空值和未知值。

在另一个实施方案中，提供了一种用于获取web事件的向量表示的方法，该方法包括：记录并存储来自浏览会话的事件，其中这些事件包括来自多个客户的活动数据；预处理在该网站上捕获的原始数据，其中该预处理还包括以下步骤：移除或掩蔽/加密包含个人可识别信息的所有列中的值；识别在模型训练时需要预测的类属性；识别并移除复制类属性的列；移除阵列类型数据；移除时间戳数据；将所有布尔类型数据转换成整数类型；以及替换所有空值和未知值；以及获取这些可摄取数据集，这些可摄取数据集能够应用于用来获取web事件的向量表示的算法；用这些可摄取数据集训练前馈神经网络；将这些web事件输入到该前馈神经网络中，其中，该输出包括这些web事件中的每个活动的向量表示；以及将向量列附到这些web事件中对应活动的数据集。附加步骤可包括：将所附数据集输入到包括LSTM细胞单元和稠密神经元单元的受过训练的神经网络中，其中该神经网络的输入层和隐藏层包括LSTM细胞单元并且输出层包括这些稠密神经元单元；获取经处理的序列，该经处理的序列作为单个向量输入到该稠密神经元层中；对该单个向量应用softmax函数；以及获取该向量的结果概率。

这些向量表示包括共同n维空间。该训练包括对该输入的事件类的预测。该受过训练的前馈神经网络包括多个输入层分支。该多个输入层分支还包括至少接受类别属性的第一分支和接受连续数值属性的第二分支。

这些事件以共同模式存储。将所有布尔类型数据转换成整数类型还包括：用1替换“真”，并且用0替换“假”。替换所有空值和未知值还包括：针对整数类型用1、针对双重类型用0.0并且针对字符串类型用“未知”替换所有空值和未知值。这些预处理步骤按顺序次序执行。每个事件包括具有特性和模态的模式。

该神经网络已使用预处理的数据训练，该用于预处理的方法包括：识别给定实体的一组结果ID；限定捕获访问ID、给定访问内的事件ID按时间排序的序列以及类标签的数据框模式；查询事件数据框以填充所限定的数据框；从该序列中移除结果事件；以及用相应事件向量替换事件ID。

该输入层按时间戳的次序接受输入。该单个向量包括该序列中先前事件的表示。

附图说明

图1是示出联网环境内的系统的实施方案的图。

图2A是示出计算设备的实施方案的图。

图2B是示出计算设备的实施方案的图。

图3是示出用于数据处理的过程的实施方案的流程图。

图4是示出用于应用预测分析和机器学习的系统的实施方案的图。

图5是示出用于将事件转换成向量表示的系统的实施方案的图。

图6是示出用于摄取向量表示的过程的实施方案的图。

图7是示出用于顺序神经网络的系统的实施方案的图。

具体实施方式

出于促进对本发明原理的理解的目的，现在将参考附图中示出的实施方案，并且将使用具体语言来描述这些实施方案。然而，应当理解，并不旨在因此限制本发明的范围。如本发明所涉及领域的技术人员通常将想到的，设想了所述实施方案的任何改变和其他修改，以及如本文所述的本发明原理的任何其他应用。

如今，客户通常通过商品或服务提供方的网站或移动应用程序开始和进行他们与提供方的交互，这些网站或移动应用程序正快速成为组织与其客户、供应方和其他利益相关者进行通信的主要接口。

传统联络中心到客户护理代理的路由通过源自电话参数(诸如呼叫线ID)的数据或通过客户在交互式语音响应会话中通过DTMF音调作出的简单选择(例如，按压1以进行销售、按压2以进行支持等)进行。

现在可存在对于联络中心来说可能的全新的范例，借此客户通过业务网站或移动应用程序开始业务交互，这些业务网站或移动应用程序现在是企业支持其客户的主要接口。随着像VoIP和WebRTC的技术的出现，可以将语音和视频功能直接构建到基于网站和浏览器或移动应用程序的体验中。这种机制甚至不再需要客户具有电话号码，因为介质路径是在客户和客户的浏览器或移动应用程序之间对等建立的。

(例如，

)、Cisco(例如，Jabber Guest)等、包括用于web浏览器的电话插件越来越多地采用WebRTC和其他基于互联网的电信开发使得可将统一电信功能直接构建到浏览器中，以由实体网站的相关嵌入特征临时调用。

然而，已知的具体实施仍然仅使用此类统一通信插件来经由电话协议诸如SIP向PSTN或企业PBX发起呼叫，然后使用传统方法像呼叫线ID或拨号连同基于交互式语音响应的认证(例如，“输入您的标识符”)或基本呼叫路由(例如，“按压1以进行支持，按压2以进行销售”)来路由呼叫。因此，此类具体实施仍然仅使用浏览器作为进入已知和传统的基于PSTN/PBX的电信模型的网关。

因此，接收此类呼叫的对话者(举非限制性示例而言，联络中心中的代理)必须依赖于关于它们的数据系统可已经持有的关于呼叫用户的任何细节，特别是在这种呼叫是客户与跟网站相关联的实体或甚至两者的首次实时交互的情况下。

已知用跟踪客户行为和在线资源的使用的分析数据处理工具(例如像分析网站浏览模式的Google

)细化所捕获的数据，然而，此类工具的输出通常是聚合且匿名的数据，因此不适合支持呼叫用户及其最终对话者两者的直观且个性化的体验。其他工具(例如，Marketo或HubSport)将基于网站上的活动对访客进行排序。然而，这些工具并不适用于将该个性化扩展到联络中心，这主要是由于当客户将通信切换到电话或其他音频通信装置时失去了上下文。本领域的其他专利公布可包括US2004/039775和WO2014/071391，然而同样地，所公开的系统和方法并不为与网站交互的用户提供令人满意水平的个性化。

图1是示出联网环境内的系统的实施方案的图，该系统总体上以100指示。联网环境包括多个数据处理设备，该多个数据处理设备包括移动数据处理终端105_N和静态数据处理终端110_N两者，每个数据处理设备能够至少跨网络(包括广域网(“WAN”)111，诸如万维网或互联网)彼此进行数据通信。

每个移动数据通信设备105包括移动电话手持机105，该移动电话手持机具有通过蜂窝电话网络的无线电信发射和接收功能，该蜂窝电话网络根据全球移动通信系统(“GSM”)、通用分组无线电服务(“GPRS”)、国际移动电信-2000(IMT-2000、“W-CDMA”或“3G”)、高级国际移动电信(符合ITU-R，并且称为“4G”)、网络行业标准配置，并且其中电信使用短消息服务(“SMS”)协议、无线应用协议(“WAP”)、超文本传输协议(“HTTP”)或安全超文本传输协议(“HTTPS”)作为语音、字母数字或音频视频数据来执行。

每个移动电话手持机105_N通过无线数据传输106接收或发射编码为数字信号的语音、文本、音频和/或图像数据，其中信号由地理上最近的通信链路中继器107或多个通信链路中继器相应地向或自手持机中继。多个通信链路继电器107允许使用远程网关108经由MSC或基站109在每个手持机105和其目的地之间路由数字信号。网关108是例如通信网络交换机，其耦接无线电信网络(诸如其内发生无线数据传输106的蜂窝网络)和广域网111之间的数字信号业务。如果需要，网关108还提供协议转换，例如手持机105是使用WAP还是使用HTTPS协议来传送数据。

另选地或除此之外，多个移动数据通信设备105_N中的一个或多个可具有分别通过符合802.11标准(“Wi-Fi”)的有线局域网(“LAN”)和/或无线LAN(“WLAN”)的有线和/或无线电信发射和接收功能。在LAN或WLAN中，电信同样使用互联网协议(“IP”)、VoIP协议、HTTP或HTTPS作为语音、字母数字和/或音频视频数据来执行，该信号由将移动数据通信设备105交接到WAN通信网络111的有线(LAN)或无线(WLAN)路由器109相应地向或自移动数据通信设备105中继。除了GSM、GPRS、W-CDMA和/或3G、ITU-R/4G之外，移动电话手持机105还可具有通过WLAN的无线电信发射和接收功能。

用于与系统100一起使用的典型手持机105_N优选地为通常称为“智能电话”(例如，iPhone、Android电话或等效手持机)的手持机。一般来讲，移动终端105可为具有至少无线通信装置以及音频记录和存储装置的任何便携式数据处理设备。因此，根据本公开，技术人员将容易理解，移动数据通信设备105中的一个或多个可替代地为通常称为“膝上型电脑”或“笔记本电脑”、平板电脑等的便携式计算机。

计算机系统

系统100包括一个或多个数据处理终端110_N。在一个实施方案中，通过硬件或固件(例如，ASIC)来实现所述附图中的各种服务器、控件、交换机、网关、引擎和/或模块(统称为服务器)中的每一者，如本领域的技术人员将理解的。各种服务器中的每一者可为在一个或多个计算设备(例如，图2A、图2B)中的一个或多个处理器上运行的进程或线程，该一个或多个处理器执行计算机程序指令并与其他系统部件进行交互以用于执行本文所述的各种功能。计算机程序指令存储在存储器中，该存储器可使用标准存储器设备例如像RAM在计算设备中实现。计算机程序指令还可存储在其他非暂态计算机可读介质例如像CD-ROM、闪存驱动器等中。本领域的技术人员应当认识到，计算设备可经由固件(例如，专用集成电路)、硬件、或软件、固件和硬件的组合来实现。本领域的技术人员还应当认识到，在不脱离本发明的示例性实施方案的范围的情况下，可将各种计算设备的功能组合或集成到单个计算设备中，或者可将特定计算设备的功能跨一个或多个其他计算设备分布。服务器可为软件模块，其也可简称为模块。联络中心中的该组模块可包括服务器和其他模块。

各种服务器可在与联络中心的代理位于相同物理位置处的现场计算设备上，或者可位于场外(或在云中)在地理上不同的位置中(例如，在远程数据中心中)，经由网络诸如互联网连接到联络中心。此外，服务器中的一些可在联络中心处的现场计算设备中，而其他服务器可位于场外计算设备中，或者提供冗余功能的服务器可通过现场计算设备和场外计算设备两者提供，以提供更大的故障容限。在一些实施方案中，由位于场外计算设备上的服务器提供的功能可通过虚拟专用网络(VPN)访问和提供，好像此类服务器在现场一样，或者可使用软件即服务(SaaS)来提供功能，以使用各种协议通过互联网提供功能，诸如通过交换以可扩展标记语言(XML)或JSON编码的数据。在一个实施方案中，服务器可位于与浏览网站的客户或用户相关联的计算设备或用户设备上。

图2A和图2B是示出可在本发明的实施方案中采用的计算设备的实施方案的图，该计算设备总体上以200指示。每个计算设备200包括CPU 205和主存储器单元210。如图2A所示，计算设备200还可包括存储设备215、可移动介质接口220、网络接口225、输入/输出(I/O)控制器230、一个或多个显示设备235A、键盘235B和指向设备235C(例如，鼠标)。存储设备215可包括但不限于用于操作系统和软件的存储装置。如图2B所示，每个计算设备200还可包括另外的可选元件，诸如存储器端口240、桥接件245、一个或多个另外的输入/输出设备235D、235E以及与CPU 205通信的高速缓存存储器250。输入/输出设备235A、235B、235C、235D和235E在本文中可统称为235。

CPU 205是响应并处理从主存储器单元210取得的指令的任何逻辑电路。该CPU可例如以微处理器、微控制器或图形处理单元的形式在集成电路中实现，或者在现场可编程门阵列(FPGA)或专用集成电路(ASIC)中实现。主存储器单元210可为能够存储数据并允许中央处理单元205直接访问任何存储位置的一个或多个存储器芯片。如图2A所示，中央处理单元205经由系统总线255与主存储器210通信。如图2B所示，中央处理单元205还可经由存储器端口240与主存储器210直接通信。

在一个实施方案中，CPU 205可包括多个处理器，并且可提供用于同时执行指令或用于同时在多于一个数据片上执行一个指令的功能。在一个实施方案中，计算设备200可包括具有一个或多个内核的并行处理器。在一个实施方案中，计算设备200包括共享存储器并行设备，其具有多个处理器和/或多个处理器内核，从而作为单个全局地址空间访问所有可用存储器。在另一个实施方案中，计算设备200是具有多个处理器的分布式存储器并行设备，每个处理器仅访问本地存储器。计算设备200可具有一些共享的存储器和一些可仅由特定处理器或处理器子集访问的存储器两者。CPU 205可包括多核微处理器，该多核微处理器将两个或更多个独立处理器组合到单个包装中，例如，组合到单个集成电路(IC)中。例如，计算设备200可包括至少一个CPU 205和至少一个图形处理单元。

在一个实施方案中，CPU 205提供单指令多数据(SIMD)功能，例如，同时在多个数据片上执行单个指令。在另一个实施方案中，CPU205中的若干处理器可提供用于同时在多个数据片(MIMD)上执行多个指令的功能。CPU 205还可在单个设备中使用SIMD和MIMD内核的任何组合。

图2B描绘了其中CPU 205经由第二总线(有时称为背面总线)与高速缓存存储器250直接通信的实施方案。在其他实施方案中，CPU205使用系统总线255与高速缓存存储器250通信。高速缓存存储器250通常具有比主存储器210更快的响应时间。如图2A所示，CPU205经由本地系统总线255与各种I/O设备235通信。各种总线可用作本地系统总线255，包括但不限于视频电子标准协会(VESA)本地总线(VLB)、工业标准架构(ISA)总线、扩展工业标准架构(EISA)总线、微通道架构(MCA)总线、外围部件互连(PCI)总线、PCI扩展(PCI-X)总线、PCI-Express总线或NuBus。对于其中I/O设备为显示设备235A的实施方案，CPU 205可通过高级图形端口(AGP)与显示设备235A通信。图2B描绘了其中CPU 205与I/O设备235E直接通信的计算机200的实施方案。图2B还描绘了其中混合本地总线和直接通信的实施方案：CPU 205使用本地系统总线255与I/O设备235D通信，同时与I/O设备235E直接通信。

广泛多种I/O设备235可存在于计算设备200中。举几个非限制性示例而言，输入设备包括一个或多个键盘235B、鼠标、触控板、轨迹球、麦克风和绘图桌。输出设备包括视频显示设备235A、扬声器和打印机。如图2A所示的I/O控制器230可控制一个或多个I/O设备，例如像键盘235B和指向设备235C(例如，鼠标或光学笔)。

再次参考图2A，计算设备200可支持一个或多个可移动介质接口220，诸如软盘驱动器、CD-ROM驱动器、DVD-ROM驱动器、各种格式的磁带驱动器、USB端口、安全数字或紧凑型FLASHTM存储卡端口，或适用于从只读介质读取数据或适用于从读写介质读取数据或向读写介质写入数据的任何其他设备。I/O设备235可为系统总线255和可移动介质接口220之间的桥接件。

可移动介质接口220可例如用于安装软件和程序。计算设备200还可包括用于存储操作系统和其他相关软件以及用于存储应用软件程序的存储设备215，诸如一个或多个硬盘驱动器或硬盘驱动器阵列。可选地，可移动介质接口220也可用作存储设备。例如，操作系统和软件可从可引导介质、例如可引导CD运行。

在一个实施方案中，计算设备200可包括或连接到多个显示设备235A，每个显示设备可具有相同或不同的类型和/或形式。因此，I/O设备235和/或I/O控制器230中的任一者可包括任何类型和/或形式的合适的硬件、软件、或硬件和软件的组合，以支持、启用或提供到多个显示设备235A的连接和计算设备200对该多个显示设备的使用。例如，计算设备200可包括任何类型和/或形式的视频适配器、视频卡、驱动器和/或库，以交接、通信、连接或以其他方式使用显示设备235A。在一个实施方案中，视频适配器可包括多个连接器以交接到多个显示设备235A。在另一个实施方案中，计算设备200可包括多个视频适配器，其中每个视频适配器连接到显示设备235A中的一个或多个。在其他实施方案中，显示设备235A中的一个或多个可由经由网络连接到例如计算设备200的一个或多个其他计算设备提供。这些实施方案可包括被设计和构造为使用另一个计算设备的显示设备作为计算设备200的第二显示设备235A的任何类型的软件。本领域的普通技术人员将认识并理解计算设备200可被配置为具有多个显示设备235A的各种方式和实施方案。

总体上在图2A和图2B中指示的计算设备的实施方案可在操作系统的控制下操作，该操作系统控制任务的调度和对系统资源的访问。计算设备200可运行任何操作系统、任何嵌入式操作系统、任何实时操作系统、任何开源操作系统、任何专有操作系统、用于移动计算设备的任何操作系统、或能够在计算设备上运行并执行本文所述操作的任何其他操作系统。

计算设备200可为任何工作站、台式计算机、膝上型电脑或笔记本计算机、服务器机器、手持式计算机、移动电话或其他便携式电信设备、介质播放设备、游戏系统、移动计算设备，或能够通信并且具有足够的处理器能力和存储器容量来执行本文所述操作的任何其他类型和/或形式的计算、电信或介质设备。在一些实施方案中，计算设备200可具有与该设备相符的不同处理器、操作系统和输入设备。

在其他实施方案中，计算设备200是移动设备。示例可包括支持Java的蜂窝电话或个人数字助理(PDA)、智能电话、数字音频播放器或便携式介质播放器。在一个实施方案中，计算设备200包括设备的组合，诸如与数字音频播放器或便携式介质播放器组合的移动电话。

计算设备200可为由网络连接的多台机器中的一台，或者可包括如此连接的多台机器。网络环境可包括经由一个或多个网络与一个或多个远程机器(其通常也可称为服务器机器或远程机器)通信的一个或多个本地机器、客户端、客户端节点、客户端机器、客户端计算机、客户端设备、端点或端点节点。在一个实施方案中，本地机器能够既用作寻求对由服务器机器提供的资源的访问的客户端节点，又用作提供对为其他客户端托管的资源的访问的服务器机器。网络可为LAN或WAN链路、宽带连接、无线连接或上述任一项或全部的组合。可使用多种通信协议来建立连接。在一个实施方案中，计算设备200经由任何类型和/或形式的网关或隧道协议、诸如安全套接层(SSL)或传输层安全(TLS)与其他计算设备200进行通信。网络接口可包括内置网络适配器，诸如网络接口卡，其适用于将计算设备交接到能够通信并执行本文所述操作的任何类型的网络。I/O设备可为系统总线和外部通信总线之间的桥接件。

在一个实施方案中，网络环境可为虚拟网络环境，其中网络的各种部件是虚拟化的。例如，各种机器可为被实现为在物理机器上运行的基于软件的计算机的虚拟机。虚拟机可共享相同的操作系统。在其他实施方案中，可在每个虚拟机实例上运行不同的操作系统。在一个实施方案中，实现“管理程序”类型的虚拟化，其中多个虚拟机在同一主机物理机器上运行，每个虚拟机表现得好像其具有自己的专用框一样。虚拟机还可在不同的主机物理机器上运行。

还可设想其他类型的虚拟化，例如像网络(例如，经由软件限定的联网(SDN))。功能诸如会话边界控制器的功能和其他类型的功能也可例如像经由网络功能虚拟化(NFV)来虚拟化。

操作终端105_N、110_N的任何用户可访问提供商品或服务的实体101的网站，以用于获取关于实体和/或其商品或服务的信息。实体101相应地操作被配置为web服务器的静态终端110以用于将网站分布到请求远程终端，并且实体处的至少一个对话者操作终端以用于满足其用户的任何临时电信需求。实体101还可使用远程联络中心实体102处的一个或多个对话者，该一个或多个对话者操作静态终端和移动终端两者以用于电信支持和辅助。

图3详细示出了在图1、图2A和图2B的环境中利用用户数据处理终端和实体数据处理终端执行的方法的实施方案的数据处理步骤。在一个实施方案中，本地用户应用程序由实体服务器提供给访问实体网站的用户移动终端，该实体网站暴露将表示用户交互的用户输入数据传递到由服务器110托管的分析和路由应用程序的至少一个应用程序编程接口(“API”)。当移动终端在服务器PC处访问网站时，API被加载，然后基本上实时地捕获用户交互数据并将其传送至服务器。该服务器应用程序分析所传送的所捕获的数据，以用于将如从所分析的交互数据导出的用户的兴趣与跟实体相关联的一个或多个对话者进行匹配，该一个或多个对话者是最有倾向在可在用户与网站的交互之后的任何实时电信中与用户进行交互的人，例如，在此类导出的兴趣方面有相关培训的专家对话者。每当用户会例如通过选择网页中的“呼叫”、“聊天”、“视频会议”(以及等效物)按钮来发起实时电信时，服务器应用程序将任何此类电信优选地与所分析和/或所捕获的数据一起路由到匹配的对话者的终端。

根据用户如何访问网站(例如，台式计算机或膝上型电脑、平板电脑或智能电话)，将使用字母数字(例如，即时消息传送)、纯语音(例如，电话)或语音和视频(例如，Skype)格式中的任一种来作为介质路径路由用户和匹配的对话者之间的实时电信。

因此，在步骤301处，应当首先在服务器处将包括对话者数据、电信格式以及路由选项和规则的配置参数输入到由服务器应用处理的数据库中。对话者数据包括每个对话者的特征，诸如姓名、培训领域和/或话题专业、关键字和其他逻辑和/或语义区分参数，以及每个对话者终端的相应终端类型、关于上述格式和结构的通信和功能能力、以及至少一个网络地址。可输入与联系用户的潜在对话者一样多的此类对话者记录，并且所记录对话者可接收进一步的训练以扩展其电信纬度，借此可在步骤302处实例化新的对话者记录，并且可更新当前新的对话者记录，借此控制逻辑地返回到步骤301。

与上述内容并行地，在任何给定时间，在步骤303处，终端处的用户可访问服务器以用于在新浏览会话中加载和仔细查看实体网站。因此，在步骤304处，服务器在数据库中创建新的用户会话记录，并且在步骤305处，可在登录认证步骤的条件下访问网站资源。在步骤306处，用户随后在终端处输入相关认证输入数据，例如在线社交媒体资源的用户名和/或登录凭据数据。在步骤307处，将此类认证输入数据转发到服务器，在该服务器处，将此类数据记录在用户会话记录中。

步骤308处，服务器可以可选地在辅助身份验证步骤的条件下访问网站资源。步骤309处，用户随后在在其终端处输入相关身份输入数据，例如至少名字。在步骤310处，将此类身份验证输入数据再次转发到服务器，在该服务器处，将此类身份验证输入数据再次记录在用户会话记录中。

在步骤311处，用户随后通过常规用户页面和链接选择访问和仔细查看网站资源，包括网站数据、网站元数据、网页标签、网站cookie、网站页头、用户社交媒体数据中的任一者或全部。因此，用户例如利用鼠标生成一系列选择，这称为点击流，并且还可输入用于定位网站资源的一个或多个搜索字符串。在步骤311处，API基本上实时地捕获并传送该交互数据，不论是作为交互事件驱动的更新还是以聚合形式，例如作为表示历史点击或顺序点击的网站导航记录，作为两者的组合，这取决于带宽或负载约束。

由服务器处的服务器应用程序接收所传送的所捕获的交互数据，并且在步骤312中，使用各种统计预测分析技术诸如本领域已知的贝叶斯推断或回归模型对交互数据进行分析。用户的交互模式由服务器应用程序确定，并且诸如在客户将发起交互或可停止仔细查看网页或网站时输出交互预测。交互预测用于触发步骤313处的用户与相应的所记录对话者的匹配操作，这通过将交互模式与对话者参数(特别是培训领域和/或话题专业和关键字)进行比较并确定最近记录与交互模式关联的所记录对话者来实现。

在步骤314处，选择匹配对话者记录，并且基于记录在数据库中的对话者终端的网络地址来确定用户和所选择对话者之间的路由路径，借此，如果在步骤315处，用户将根据预测基本上在那时从网站发起实时电信呼叫，则在步骤316处，服务器接收对应的事件呼叫消息，并且在步骤317处，服务器应用程序将呼叫连同用户的交互模式、或所捕获和传送的用户交互数据、或两者一起路由到所选择对话者。

服务器处的服务器应用程序是倾向于针对多个交互用户和多个对话者基本上同时地执行步骤301-302、304、307、310、312-314和316-317中的每个步骤的多线程应用程序，并且步骤312-314自身形成应用程序的循环子例程，借此，如果在步骤315处，用户不发起预测的交互，则将在步骤312-314的下一迭代中处理平移感兴趣的移位点的用户的后续所捕获和传送的交互，并且最佳地导致具有与感兴趣的移位点关联的相应地不同的但更相关的一组参数的潜在地不同的匹配对话者。

图4是示出在图1、图2A和图2B的环境中在运行时的系统100内的图3的方法的高级具体实施的框图。该方法的步骤可实用地在系统100中实现为：结合用户移动终端105_N的浏览器处理的用户应用程序401，该浏览器将一个或多个API暴露于实体101的网站；由实体终端110处理的具有相关联的高度可伸缩的数据库的服务器应用程序402；以及对话者应用程序，其最简单的是由对话者的移动终端或静态终端处理的浏览器，该对话者即可解释为交互管理引擎的服务器应用程序402将用户的交互路由到的人。

当用户在其移动终端105上与用户应用程序401交互时，除了捕获在用户在步骤306处使用基于社交媒体的认证登录网站时收集的社交媒体数据405和指示至少终端类型的终端数据406之外，该用户应用程序还捕获网站数据404，诸如cookie、网页标题等，并且根据步骤311将所捕获的数据发送到服务器应用程序402。

服务器应用程序402是分析和路由应用程序，其包括数据库、分析模块407、路由模块408和参数化模块409，并且处理其所接收的所捕获的用户数据以用于识别与被认为最相关的实体101相关联的相关对话者，并且将用户的最终电信路由到该相关对话者。服务器应用程序执行步骤301-302、304-305、307-308、310、312-314和316-317(图3)。

参数化模块409具体地执行步骤301和302，即，该参数化模块用于以逻辑和语义术语限定每个对话者相对于网站数据的属性、对话者终端的属性以及与用户终端的电信链路的属性，并且诸如终端类型、相关联通信功能、用于确保每种通信类型的服务质量的最小带宽水平。

分析模块407具体地执行步骤312-314，即，该分析模块接收由用户应用401捕获的所有用户数据，因此包括但不限于网站数据、网站元数据、网页页面标签、网站cookie、网站页标题、一个或多个点击流、一个或多个搜索字符串、表示历史或顺序用户页面和链接选择的网站导航记录、用户社交媒体数据等。

路由模块408具体地执行步骤316和317。例如，该路由模块由电信事件触发，并且将用户交互与分析模块407的输出以及可选地根据步骤311接收的所捕获的用户交互数据一起路由到所选择对话者终端。

服务器应用程序402配置终端以执行至少如前所述的处理步骤301-302、304-305、307-308、310、312-314和316-317，并且该终端经由一个或多个合适的API与设备的操作系统和网络通信子例程进行交接。因此，服务器应用程序包括分析模块407、路由模块408和参数化模块409，如前所述，并且因此倾向于从访问网站资源的每个远程用户请求并获取认证数据、身份验证数据和所捕获的交互数据。网站资源以及如在步骤301和302处所建立的对话者和用户的终端类型和容量、电信规则以及对话者配置文件可存储在数据库中，并且用户会话记录包括访问网站资源的每个远程用户的所捕获的交互数据。

特定于分析模块407的服务器应用程序数据可包括用户分析的数据，诸如在步骤312处处理的交互模式和根据步骤313匹配的用户-对话者对。特定于路由模块的服务器应用程序数据可包括由分析模块407输出以供路由模块仔细查看的用户终端-对话者终端通信路径。存储器210还可包括例如由一个或多个另外的应用程序和/或操作系统使用的与服务器应用程序无关的常规的本地和/或网络数据。

浏览器应用程序数据可包括下载的支持应用程序资源和GUI，该GUI输出到显示器235A并且下载的资源被渲染到该GUI中。就对话者终端而言，浏览器应用程序数据还可包括分析的用户数据(其由在步骤317处传送到对话者终端105的服务器应用程序的输出组成)。在另选的实施方案中，远程服务器110也可转发或替代地转发，因此对话者终端的浏览器应用程序数据可进一步或另选地包括远程服务器在分析之前所接收的所捕获的用户数据中的一些或全部。所分析和/或捕获的数据可由远程服务器转发以用于临时参考目的或其他目的，使得对话者手边具有与可获得一样多的交互支持信息，以便促进与用户的电信。

在一个实施方案中，分析模块407可基于模式来分析所捕获的数据，并且将其用于预测第一用户和所选择第二用户(即，对话者或代理正由第一用户浏览的网站的代理)之间的成功结果。可利用一组交互管理过程，该组交互管理过程采用一组输入，该组输入包括原始用户在线数据(网站数据、行为数据、人口统计数据、社交数据、移动数据等)、硬性约束配置(代理和队列分配、确保满足特定业务限定的约束的规则、基于用户在线数据的呼叫路由或交互提议等)和各种形式的分析数据(例如，基于使用机器学习算法对原始数据的分析导出的智能属性(支持需要、完成结果的倾向)、基于用户的行为和人口统计对用户进行动态分组的人物角色集群，以及表示一组类似用户动作序列的旅程模式)，诸如实现具体结果的需要或可能性(其可在客户旅程期间动态地改变))。具体结果可包括产品购买、预订演示、需要支持、接受交互提议的可能性等。这些过程可用于作出交互管理决策，这些交互管理决策可包括：鉴于使基于代理效率集群的智能呼叫路由最大化的结果识别人物角色组内最有价值的客户；给代理的交互推荐(应当在何时向哪些用户提供什么交互类型-聊天/音频/视频)；以及集中于使客户旅程成形和优化业务结果的自动交互提议。

分析模块407获取输入并使用分析数据处理数据。输出可为针对由企业限定的结果并且在通过机器学习分配或由与网站相关联的企业指定的人物角色集群内对客户或动作进行排序的机器学习的“智能属性”。输出可为交互推荐。路由模块408可被配置为基于所提供的输入向代理提出交互推荐，从而向代理提供关于用户学习的上下文数据(例如，接受交互提议的可能性、购买产品的可能性)。例如，分析模块407可识别代理应当向其提供聊天交互以便提高产品销量的用户。这允许代理关注相对于给定结果具有预测高值的用户或客户，从而优化资源利用。

输出还可包括自动交互提议。分析模块407可作出知情决策并自动向所选择用户提供交互。此类交互提议可基于分析数据来作出，以便优化企业限定的结果。首先，部件使用输入数据(如前所述)识别相对于给定结果具有高值的一组客户。然后使用使用各种机器学习算法(包括决策树、贝叶斯推断和神经网络)建立的预测模型来识别适当的处理(即，交互提议)。分析模块407可被配置为确定应当自动向客户作出多少交互提议，以便使代理利用最大化并使用户或客户的排队时间最小化。

路由模块408基于(如前所述)使用基于人物角色属性(即，年龄、位置、角色、性别等)和活动(即，页面查看、呼叫、聊天等)的机器学习的推断提供的输入来作出路由决策并执行代理选择-具有类似人物角色和活动模式的客户与代理像代理X相处得更好，客户X在他们即将拨打电话时应当保留代理，或者系统已经为他们提供了交互并且他们可能接受等。

旅程事件表示

在用户数据处理期间，为了对对应于最终用户与企业的交互的数据日志(例如，用户在网站上的活动流)应用现有技术的机器学习算法，需要将每个用户活动(称为事件)表示为向量。事件还可包括由触发网页前端或后端变化的实体诸如系统、用户或代理进行的活动。在一个实施方案中，事件最初记录为由非常大量的属性-值对表示的对象，其中表示事件的属性随事件的类型(例如，查看的页面、填写的表格等)而变化。将这些对象馈送到机器学习算法的简单方法需要数据科学家在选择重要属性(也称为特征工程)方面付出相当大量的人力。在将事件的表示创建为向量(在本文中也称为“event2vec”)时，原始事件以端对端自动化方式输入算法中并作为数据的向量表示输出。就所包含的信息而言，所得的向量稠密且丰富。用于将事件的表示创建为向量的架构能够处理多模态事件(网络点击、呼叫、SMS、电子邮件、聊天等)。也可使用不同的模式捕获不同模态的事件。因此，从原始事件创建向量的方法可为模式不可知的。因此，应用event2vec的相同系统可用于为关于交互数据进行训练的多种基于机器学习的预测系统生成事件向量。

事件的向量表示可用于多种分析和预测系统，诸如上文在图3和图4中所述的那些分析和预测系统。在一个实施方案中，分析模块407可基于模式来分析所捕获的数据，并且将其用于预测第一用户(例如，浏览网站的客户)和所选择第二用户(例如，对话者或代理第一用户正在浏览的网站的代理)之间的成功结果。在另一个实施方案中，所捕获的数据可基于模式来分析并用于预测第一用户的成功结果和实现该结果的动作，诸如向第一用户自动呈现提议或向代理作出推荐。在另一个实施方案中，预测结果可作为排名列表呈现给代理，其中代理能够基于所提供的信息(诸如客户实现具体结果的概率和可能性)手动选择期望结果。代理还能够基于分析从网站上的多个客户中选择客户，以向一个或多个客户呈现最有可能产生期望结果的交互。

在另一个实施方案中，结果预测可由企业用于基于结果概率的上升和下降来手动或自动预料浏览网站的客户何时将需要代理支持。例如，事件向量可用于使用机器学习算法像递归神经网络(RNN)(下文更详细地描述)对客户旅程进行时间序列建模，其可用于预测企业网站上的结果(例如，用户会话期间的销售概率)。结果类型可随企业类型而变化。例如，“订单已下”可能是电子商务企业网站的结果，而“抵押贷款申请提交”可能是银行网站的结果。

在另一个实施方案中，表示为向量的事件也可用于分析用户案例研究，诸如通过将事件绘制为图中的点来观察浏览行为的相似性和关系。

如先前所提及的，可在称为事件的单元中捕获客户旅程数据。每个事件包括信息诸如唯一ID和时间戳，以及捕获信息的属性，包括但不限于：客户配置文件、客户与企业的交互、网站上的在线浏览行为等。客户旅程数据还可包括诸如以下的信息：客户是谁、客户在哪里、客户正在使用什么硬件和/或软件、客户在网站上选择了什么物品(或客户选择了哪些按钮)、客户在网页表单上填写了什么、客户用来执行搜索的关键词、客户是否已经与代理进行交互，以及关于任何此类交互的其他细节(例如，客户交互评级、转录本、结果等)。

在一个实施方案中，使用监督式机器学习方法进行预测分析需要从现有客户旅程中汲取的示例，这些示例包括待预测的信息(例如，是否实现了企业结果)。这些示例用于训练能够针对新客户旅程进行预测的模型。这些示例包括客户旅程的原始数据日志，这些原始数据日志在被输入到机器学习算法中以用于模型训练和预测之前需要进行大量处理。此外，处理步骤可根据原始数据格式而变化。

在表示学习的实施方案中，真实世界实体可通过关于次要预测任务而不是结果预测的主要任务训练预测模型来表示为向量，其中合适的事件属性被识别为待预测的。可从实体收集输入，并且可在训练阶段期间学习这些实体的最佳向量表示。神经网络可用于学习稠密向量，其在现有技术中通常用于表示原本不被记录为多维对象的真实世界实体(例如，字词)。在一个实施方案中，表示学习还可用于为实体(例如，事件)限定更小且更稠密的向量空间，这些实体原本使用更多数量的维度/属性记录在变化的稀疏向量空间中，并且因此在输入到机器学习模型时计算昂贵且处理效率低下。

事件是高度异质的，因为它们包括不同语义类型(时间戳、URL、搜索关键字、数量等)的信息(或属性)。在一个实施方案中，将事件转换为向量表示的方法将不同语义类型的事件映射为共同n维空间中的向量，从而在数学上将每个事件表示为数值阵列，其中阵列的大小对应于维度数量。本文方法的实施方案包括：训练预测神经网络模型以预测所选择事件属性的值，并且从所训练神经网络的隐藏层提取事件向量。

为了训练用于在event2vec中使用的模型，需要若干预处理步骤以将从企业网站捕获的原始客户旅程数据转换为在数据分析期间可通过算法摄取的形式。来自客户浏览会话的事件日志可存储为具有一组预限定属性和要在这些属性下记录的值的类型的json对象。每个事件被提供唯一ID和时间戳。共同模式用于从不同企业捕获事件数据。待用于分析的任何数量的企业及其数据均在实施方案的范围内。

在一个实施方案中，事件数据可保存在公共云存储资源(例如，Amazon S3)中或私有云资源中。用于保存大量事件的合适格式的示例可为数据框，数据框可使用像Spark的大数据处理工具快速读取和查询。大量事件数据可保存为具有共同格式或模式的多个数据框。在一个实施方案中，数据框包括行和列，其中每行表示具有唯一事件ID的唯一事件，并且列表示事件属性。客户旅程ID可在访问ID属性中捕获，并且因此多个事件可具有相同的访问ID。事件数据被查询，并且还可切分成时间间隔(例如，每月)以便于处理。事件属性的示例可包括：ID、账户、事件类型、创建访问的时间(第一访问活动的时间戳)、指示访客应被视为离开的时间的时间戳、客户或访客的cookie ID、已知(已验证的)客户的ID、所访问的最后一个页面的URL、web访问内使用的搜索术语的列表、由于在web访问内执行的活动而分配给客户的人物角色ID的列表、由于在web访问内执行的活动而实现的结果ID的列表、识别搜索引擎通讯名称或其他营销活动来源、用户代理字符串、浏览器版本、浏览器所设置到的语言、对移动设备为真的标记、操作系统家族、国家名称、访客的时区、访客的IP地址等。如果属性不具有值，则分配值可为空或未知的。还可指示属性的数据类型，例如像字符串、数字或布尔值。

对原始数据执行预处理，以便获取用于event2vec算法的数据集。event2vec算法需要数据中的初始事件(与下文进一步描述的结果预测不同，结果预测需要呈序列格式的数据)。根据问题并且根据数据定制预处理。机器学习需要数据处于具体输出中，这通过下面概述的预处理步骤实现：

移除或掩蔽/加密包含个人可识别信息(PII)的所有数据列。这是匿名化信息以便遵守适用法律的方式。

识别模型训练时需要预测的列(类属性)。

识别复制类属性的列并将其移除。这些信息通常以数据集中的重复信息进行复制。

移除阵列类型列。该移除简化了该过程，然而，在一个实施方案中，可不移除这些阵列类型列。如果不移除阵列类型列，则需要更复杂的预处理方法。

将所有布尔类型列转换为整数类型，用1替换真，用0替换假。这是为了格式的一致性，因为算法以数字整数起作用。

分别用0、0.0、未知替换整数类型、双重类型和字符串类型的所有空值和未知值。

在一个实施方案中，按顺序次序执行这些步骤。在一个实施方案中，所得的数据框包括与输入数据框相同数量的行，但是列的数量较少，并且在任何列中没有空值。

一旦已经执行预处理，就获取可应用于机器学习算法以进行训练和验证的数据集。图5是示出总体上指示用于将事件转换成向量表示的系统(神经网络)的实施方案的图。该系统可存在于分析模块407中。在一个实施方案中，可通过训练前馈神经网络来获取图5所示的系统。然后，可使用该系统预测输入事件的事件类507。事件类最初可作为属性记录在原始事件数据中。在一个实施方案中，事件可属于多个类(例如，例如34个)，诸如查看的页面、填写的表格、接受的交互等。前馈网络包括两个输入层分支。第一分支可接受类别属性501，而第二分支接受包含连续数字属性和/或连续值的属性503。类别属性可被限定为具有类型字符串的属性。类别属性在输入到系统中之前必须首先转化为向量。因此，类别属性分支可包括额外层502(例如，嵌入层)。在一个实施方案中，数字属性503可在不进行转化的情况下使用。一旦在嵌入层502中转换包括分类属性的输入501，就可在隐藏层504A中将它们与数字属性输入503进行组合。然后通过另外的隐藏层504B优化神经网络以创建输出层506，该输出层的输出用于预测事件的类507。在训练网络之后，能够(使用标准算法)从隐藏层504B提取稠密事件向量表示505。稠密事件向量505可用于结果预测(下文更详细地描述)。

在event2vec系统中训练了模型之后，模型可接受任何事件并输出n维事件向量。在一个实施方案中，在数据集中将事件表示为共同n维空间中的向量。可将另外的事件向量列附到事件数据框，该事件向量列保持event2vec模型针对行中对应事件的向量输出。然后可将新数据框用于进一步分析，诸如下文更详细描述的结果预测。

结果预测

在一个实施方案中，客户旅程数据包括序列数据，其中每个旅程可为按时间布置的事件序列。并非所有机器学习算法都能够摄取和利用此类数据中原本对于准确预测建模重要的的顺序信息。序列学习包括能够摄取顺序数据并在学习的模型中编码时间信息的一类机器学习算法。RNN包括可作为输入直接对序列起作用的一类神经网络。特别地，仅举非限制性示例而言，长短期记忆(LSTM)网络对于处理较长序列是最佳的。RNN能够通过一次处理序列的一个单元并更新其对序列状态的编码来输入顺序数据。RNN细胞在其处理序列中的单元时能够将上下文信息保留在内部存储器中。

在一个实施方案中，对话者(例如，代理、联络中心员工、网站主、应用提供方等)可设置他们希望实现/避免的积极和消极结果一简单的结果是“购买”或“支持票据关闭”，更复杂的结果是“对销售活动开放”。机器学习部件(诸如分析模块402)可确定哪些客户在提供交互(例如，聊天、呼叫、电子邮件、建议、视频聊天等)时更可能完成期望的结果。机器学习部件或模块实时捕获数据并实时预测第一用户(例如，客户)和所选择第二用户(例如，联络中心的代理)之间的成功结果的概率。在一个实施方案中，机器学习部件或模块包括分类算法，该分类算法用于学习关于所捕获的事件序列的复杂分类函数/模型，并存储所学习的函数/模型以对新鲜事件序列进行分类并提供预测类的置信度分数。类是“实现的结果”和“未实现的结果”，并且置信度分数是结果概率。

可在代理或系统的交互结束时以二进制方式捕获结果，从而以编程方式从代理将结果输入到其中的CRM或票据系统检索结果或者在用户完成限定结果的动作序列时检索结果。这形成了系统理解驱动积极结果与消极结果的人物角色/活动模式的反馈回路。在一个实施方案中，结果可在有序列表中呈现为代理要采取的潜在的接下来的最佳动作，并且可更改以包括结果预测。因此，系统或代理(其可手动干预)可向他们希望实现具体结果的可能处于不实现具体结果的危险之中的客户提供聊天或呼叫或其他动作。这是重要的，因为代理池总是有限的。因此，代理时间可针对与最可能使限定的结果最大化的客户进行的交互的类型。在代理作出提议的情况下，可应用机器学习以向代理呈现针对其决定向哪个客户呈现具体交互(无论是呼叫、聊天等)的具体结果的客户或动作的排序列表。

在一个实施方案中，称为RNN的更具体类型的神经网络可用于结果预测算法。RNN包括一类主要的深度学习算法，并且为客户旅程建模提供特定益处。RNN，特别是LSTM，能够识别长时间序列的元素之间的关系并将这些建模为复杂数学函数。与标准前馈神经网络不同，LSTM具有允许处理整个数据序列的反馈连接。因此，手动分析客户旅程以识别对于结果预测重要的数据特性不是必要的。RNN还允许随着客户旅程序列的增长而使预测准确度的变化可视化。另外，可从对各个企业的预测收集解释和推理。

基于RNN的分类算法由RNN细胞单元构成，并且还可与稠密型神经元单元组合。图6是示出总体上指示用于摄取事件向量表示的过程的实施方案的图。在一个实施方案中，事件向量可为图5中创建的那些事件向量。客户旅程605在一定时间长度606内发生，其中事件610实时发生。在图6中，为了进行示意性的说明而提供的具体事件包括在时间戳“2019年1月11日8:23”615a处发起的“广告点击”610a、在时间戳“2019年1月11日8:24”615b处的“查看主页”610b、在时间戳“2019年1月11日9:00”615c处发起的“发起聊天”610c，以及在时间戳“2019年1月11日9:45”615d处发起的“加入购物车”610d。事件610d“加入购物车”可另外被分类为结果事件，其中将物品添加到购物车是期望的结果。可使用任何数量的事件在本文提供的实施方案的范围内，并且本文提供的那些事件并非旨在为限制性的，而是为了简单起见。还可针对客户旅程605内的每个增量事件610获取对结果的预测。RNN分类器在客户旅程中的每个增量事件时被调用，以基于在客户旅程中发生的直到当前时间点的所有事件序列来进行预测。

输入层和隐藏层包括RNN分类器细胞625(这在下面的图7中进一步详细描述)。RNN分类器细胞的示例可为LSTM。对客户旅程数据应用event2vec算法以获取每个事件的事件向量620(620a、620b和620c)。输入层按时间戳次序摄取对应的事件向量620a、620b和620c。维护并更新向量以概括客户旅程的状态。累积向量630可概括所有先前的事件向量。RNN分类器细胞625a、625b和625c摄取向量并产生客户行程的每个事件610a、610b和610c时的结果概率635a、635b、635c。

为了训练结果预测模型并获取对新数据的结果预测，需要对数据进行预处理，因为数据需要呈标记类的序列的格式。用于获取标记的序列数据集的原始事件日志的预处理如下：

识别给定企业的一组结果ID。

限定具有列的数据框模式，其捕获访问ID、给定访问内的事件ID按时间排序的序列以及类标签。

查询原始事件数据框(到event2vec系统的输入数据集)以获取上文限定的序列数据集。类标签列将根据在访问期间是否实现结果保持二进制值。

从事件序列中移除实现结果的事件。

使用event2vec系统将序列列中的事件ID替换为它们的相应事件向量。

所得的输出数据框与输入事件数据框相比具有更少数量的行和不同组的列。另外，输出应当为RNN接受数据的标准格式。输出数据用于训练和验证用于结果预测的算法。图7是示出总体上指示如图6中所应用的用于顺序神经网络的系统的实施方案的图。输出层包括稠密神经元层，该稠密神经元层作为单个向量输入经RNN(或更具体地，在一个实施方案中为LSTM)处理的序列。对稠密层的输出应用softmax函数。然后使用标记的序列数据集训练网络。标记的序列数据集是从已经如上所述转换的原始事件数据集获取的。标签对在给定访问中是否实现结果的信息进行编码。图7中指示的系统可用于结果预测。将包括客户行程的数据的输入数据表示为一组向量。输入层按时间戳的次序收入事件向量、保持并更新向量，该向量是序列中先前事件的表示。序列中的每个事件具有与其相关联的RNN细胞，如在图7中可见。每个RNN细胞输出中间向量表示以传递至下一个RNN细胞，该下一个RNN细胞概括客户旅程的状态直到当前处理的时间步。通过受过训练的模型，以二元方式摄取并输出事件向量序列，该二元方式对应于所实现的或未实现的结果(例如，分别为1或0)。

结果预测的使用案例适用于处理多家企业的组织，消除了对识别用于预测建模的重要事件属性的大量人力的需求。该系统特别是对于可能不具有训练数据或历史数据中存在的旅程示例的新客户具有一般化能力。

虽然在附图和上述说明中详细示出和描述了本发明，但应当将其视为示例性的而非限制性的，应当理解，仅示出和描述了优选的实施方案，并且期望保护落入如本文所述和/或以下权利要求所述的本发明的精神内的所有等效物、改变和修改。

因此，本发明的适当范围应当仅由所附权利要求的最广泛解释来确定，以便涵盖等效于附图中所示和说明书中所述的那些的所有此类修改以及所有关系。

Claims

1.一种用于将来自网站上的多个客户浏览会话的原始客户旅程事件数据转换成机器学习可摄取数据集以用于获取web事件的向量表示的方法，所述方法包括：

a.记录并存储来自所述浏览会话的事件，其中所述事件包括来自所述多个客户的活动数据；

b.预处理在所述网站上捕获的所述原始数据，其中所述预处理还包括以下步骤：

i.移除或掩蔽/加密包含个人可识别信息的所有列中的值；

ii.识别在模型训练期间需要预测的类属性；

iii.识别并移除复制类属性的列；

iv.移除阵列类型数据；

v.移除时间戳数据；

vi.将所有布尔类型列转换成整数类型；以及

vii.替换所有空值和未知值；以及

c.获取所述可摄取数据集，所述可摄取数据集能够应用于用来获取web事件的向量表示的算法。

2.根据权利要求1所述的方法，其中所述事件以共同模式存储。

3.根据权利要求1所述的方法，其中所述将所有布尔类型数据转换成整数类型还包括：用1替换“真”，并且用0替换“假”。

4.根据权利要求1所述的方法，其中所述替换所有空值和未知值还包括：针对整数类型用1、针对双重类型用0.0并且针对字符串类型用“未知”替换所有空值和未知值。

5.根据权利要求1所述的方法，其中所述预处理步骤按顺序次序执行。

6.一种用于获取web事件的向量表示的方法，所述方法包括：

i.移除或掩蔽/加密包含个人可识别信息的所有列中的值；

ii.识别在模型训练时需要预测的类属性；

iii.识别并移除复制类属性的列；

iv.移除阵列类型数据；

v.移除时间戳数据；

vi.将所有布尔类型数据转换成整数类型；以及

vii.替换所有空值和未知值；以及

c.获取所述可摄取数据集，所述可摄取数据集能够应用于用来获取web事件的向量表示的算法；

d.用所述可摄取数据集训练前馈神经网络；

e.将所述web事件输入到所述前馈神经网络中，其中，所述输出包括所述web事件中的每个活动的向量表示；以及

f.将向量列附到所述web事件中对应活动的数据集。

7.根据权利要求6所述的方法，其中所述向量表示包括共同n维空间。

8.根据权利要求6所述的方法，其中所述训练包括对所述输入的事件类的预测。

9.根据权利要求8所述的方法，其中所述受过训练的前馈神经网络包括多个输入层分支。

10.根据权利要求9所述的方法，其中所述多个输入层分支还包括至少接受类别属性的第一分支和接受连续数值属性的第二分支。

11.根据权利要求6所述的方法，其中所述事件以共同模式存储。

12.根据权利要求6所述的方法，其中所述将所有布尔类型数据转换成整数类型还包括：用1替换“真”，并且用0替换“假”。

13.根据权利要求6所述的方法，其中所述替换所有空值和未知值还包括：针对整数类型用1、针对双重类型用0.0并且针对字符串类型用“未知”替换所有空值和未知值。

14.根据权利要求6所述的方法，其中所述预处理步骤按顺序次序执行。

15.根据权利要求6所述的方法，其中每个事件包括具有特性和模态的模式。

16.根据权利要求6所述的方法，所述方法还包括以下步骤：

a.将所附数据集输入到包括LSTM细胞单元和稠密神经元单元的受过训练的神经网络中，其中所述神经网络的输入层和隐藏层包括LSTM细胞单元并且输出层包括所述稠密神经元单元；

b.获取经处理的序列，所述经处理的序列作为单个向量输入到所述稠密神经元层中；

c.对所述单个向量应用softmax函数；以及

d.获取所述向量的结果概率。

17.根据权利要求16所述的方法，其中所述神经网络已使用预处理的数据训练，所述用于预处理的方法包括：

a.识别给定实体的一组结果ID；

b.限定捕获访问ID、给定访问内的事件ID按时间排序的序列以及类标签的数据框模式；

c.查询事件数据框以填充所限定的数据框；

d.从所述序列中移除结果事件；以及

e.用所述相应事件向量替换事件ID。

18.根据权利要求16所述的方法，其中所述输入层按时间戳的次序接受输入。

19.根据权利要求16所述的方法，其中所述单个向量包括所述序列中先前事件的表示。