CN112801721A

CN112801721A - 信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN112801721A
Application number: CN202110392685.9A
Authority: CN
Inventors: 陈梓阳; 汤玉垚; 王凝华; 刘鹤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-05-14
Anticipated expiration: 2041-04-13
Also published as: CN112801721B

Abstract

本申请实施例提供了一种信息处理方法、装置、电子设备及存储介质，涉及广告、人工智能以及云技术领域。该方法包括：获取目标媒体信息所对应的各初始用户的客服咨询数据；对于每个初始用户，从初始用户的客服咨询数据中提取初始用户的用户信息，并基于初始用户的客服咨询数据，确定初始用户对应于目标媒体信息的意图类型，意图类型表征了初始用户对目标媒体信息的感兴趣程度；基于各初始用户的意图类型对各初始用户进行过滤，以基于过滤后的各用户的用户信息对待处理媒体信息的投放策略进行优化，待处理媒体信息包括目标媒体信息或除目标媒体信息之外的其他媒体信息中的至少一项，实现了精准化投放媒体信息，降低投放成本，提高投放效率。

Description

信息处理方法、装置、电子设备及存储介质

技术领域

本申请涉及广告、人工智能以及云技术领域，具体而言，本申请涉及一种信息处理方法、装置、电子设备及存储介质。

背景技术

在传统的广告场景下，广告主在进行广告投放后，可以通过用户主动填写表单信息的方式获取到用户信息，然后由人工客服联系用户，获取用户与人工客服之间的对话内容，或者通过用户主动咨询人工客服的方式获取到用户与人工客服之间的对话内容。

通常情况下，在获取到会话内容后，还需要人工联系用户以进一步确定用户是否对广告感兴趣。这种方式会造成大量人力资源的浪费，且人工从海量的用户中确定出对广告感兴趣的用户所需的时间较长，不利于反哺广告投放，导致广告投放效率较低，广告投放成本较高。

发明内容

本申请提供了一种可以节省人力资源，提高广告投放效率的信息处理方法、装置、电子设备及存储介质。

一方面，提供了一种信息处理方法，该方法包括：

获取目标媒体信息所对应的各初始用户的客服咨询数据，客服咨询数据包括客服与初始用户之间的会话数据；

对于每个初始用户，从初始用户的客服咨询数据中提取初始用户的用户信息；

对于每个初始用户，基于初始用户的客服咨询数据，确定初始用户对应于目标媒体信息的意图类型，意图类型表征了初始用户对目标媒体信息的感兴趣程度；

基于各初始用户的意图类型，对各初始用户进行过滤，以基于过滤后的各用户的用户信息对待处理媒体信息的投放策略进行优化，待处理媒体信息包括目标媒体信息或除目标媒体信息之外的其他媒体信息中的至少一项。

另一方面，提供了一种信息处理装置，该装置包括：

会话数据获取模块，用于获取目标媒体信息所对应的各初始用户的客服咨询数据，客服咨询数据包括客服与初始用户之间的会话数据；

用户信息提取模块，用于对于每个初始用户，从初始用户的客服咨询数据中提取初始用户的用户信息；

用户意图类型确定模块，用于对于每个初始用户，基于初始用户的客服咨询数据，确定初始用户对应于目标媒体信息的意图类型，意图类型表征了初始用户对目标媒体信息的感兴趣程度；

用户过滤模块，用于基于各初始用户的意图类型，对各初始用户进行过滤，以基于过滤后的各用户的用户信息对待处理媒体信息的投放策略进行优化，待处理媒体信息包括目标媒体信息或除目标媒体信息之外的其他媒体信息中的至少一项。

在一种可能的实现方式中，用户意图类型确定模块具体用于：

提取会话数据所包含的各语句的局部会话特征；

将各局部会话特征进行拼接，基于拼接后的特征提取会话数据对应的全局会话特征；

基于全局会话特征，确定初始用户对应于目标媒体信息的意图类型。

在一种可能的实现方式中，用户意图类型确定模块还用于：基于每个语句的局部会话特征，确定各语句对应的局部意图类型；

用户意图类型确定模块在基于全局会话特征，确定初始用户对应于目标媒体信息的意图类型时，具体用于：

基于全局会话特征，确定会话数据对应的全局意图类型；

基于各语句对应的局部意图类型和全局意图类型，确定初始用户对应于目标媒体信息的意图类型。

在一种可能的实现方式中，对于每个初始用户，会话数据获取模块具体用于以下至少一项：

获取初始用户的至少一种联系方式信息，基于初始用户的联系方式信息，利用人工智能AI客服建立与初始用户的通信连接，并基于目标媒体信息获取AI客服与初始用户之间的会话数据；

获取人工客服与初始用户之间的对应于目标媒体信息的会话数据。

在一种可能的实现方式中，用户信息提取模块在从初始用户的客服咨询数据中提取初始用户的用户信息时，具体用于：

将会话数据进行拆分，得到各子会话数据，其中，每个子会话数据包括相邻的至少一个客服会话语句和至少一个初始用户的用户会话语句；

对于每个子会话数据，将子会话数据包含的各语句进行拼接，基于拼接后的语句提取初始用户的用户信息。

在一种可能的实现方式中，用户信息包括用户联系方式信息，用户信息提取模块在从初始用户的客服咨询数据中提取初始用户的用户信息时，具体用于：

从初始用户的会话数据中抽取用户的初始联系信息；

基于至少一种联系信息类型所对应的校验规则对初始联系信息进行校验，基于校验结果确定出初始用户的用户联系信息。

在一种可能的实现方式中，用户信息是通过预训练好的信息抽取模型从会话数据中抽取得到的，信息抽取模型的训练数据集是通过以下方式获取得到的：

获取多个第一样本会话数据；

对于每一个第一样本会话数据，对第一样本会话数据进行数据增强处理，得到至少一个第二样本会话数据；

其中，训练数据集包括各第一样本会话数据和各第二样本会话数据。

在一种可能的实现方式中，第一样本会话数据包括样本用户信息，对第一样本会话数据进行数据增强处理，得到至少一个第二样本会话数据，包括以下至少一项：

对第一样本会话数据中的样本用户信息所包含的至少一项信息进行替换，得到至少一个第二样本会话数据；

确定第一样本会话数据所包含的各语句中与至少一个预设语句语义匹配度最高的目标语句，利用预设句子分别替换第一样本会话数据中的目标语句，得到至少一个第二样本会话数据。

在一种可能的实现方式中，会话数据获取模块在基于目标媒体信息获取AI客服与初始用户之间的会话数据时，具体用于：

基于目标媒体信息，通过AI客服与初始用户进行会话，基于会话中初始用户的用户会话信息确定初始用户对应的会话类型；

基于初始用户对应的会话类型，通过AI客服向初始用户提供与会话类型对应的客服会话信息；

将初始用户对应的用户会话信息和客服会话信息，作为AI客服与初始用户之间的会话数据。

在一种可能的实现方式中，会话类型包括目标类型或非目标类型，目标类型表征了初始用户对应的会话状态或者初始用户对于目标媒体信息的感兴趣状态，会话数据获取模块在基于初始用户对应的会话类型，通过AI客服向初始用户提供与会话类型对应的客服会话信息时，具体用于：

若会话类型为目标类型，获取目标类型对应的客服会话信息，将客服会话信息提供给初始用户，以获取初始用户对于客服会话信息的用户会话信息；

若会话类型为非目标类型，从各候选关键内容中确定出与用户会话信息的匹配度最高的候选关键内容，将确定出的候选关键内容所对应的回复语句作为客服会话信息，并将客服会话信息提供给初始用户，以获取初始用户对于客服会话信息的用户会话信息。

又一方面，提供了一种电子设备，该电子设备包括存储器和处理器，其中，存储器中存储有计算机程序；处理器在运行计算机程序时，执行信息处理方法。

又一方面，提供了一种计算机可读存储介质，存储介质中存储有计算机程序，计算机程序被处理器执行时实现信息处理方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种信息处理方法、装置、电子设备及存储介质，与现有技术相比，本申请对于每个初始用户，基于初始用户的客服咨询数据，确定该初始用户对应于目标媒体信息的意图类型，该意图类型表征了初始用户对目标媒体信息的感兴趣程度，实现了自动化确定每个用户对于目标媒体信息的感兴趣程度，并基于各初始用户的意图类型对各初始用户进行自动化过滤，可以大幅的降低人力成本，快速地从海量用户中筛选出对目标媒体信息感兴趣的目标用户，从而在后续投放待处理媒体信息时，可以基于目标用户的用户信息对待处理媒体信息的投放策略进行优化，实现了媒体信息的反哺投放，即将待处理媒体信息投放给对目标媒体信息感兴趣的目标用户，从而实现精准化投放媒体信息，降低投放成本，提高投放效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种信息处理方法的流程示意图；

图2为本申请实施例提供的一种表单的示意图；

图3为本申请实施例提供的一种智能外呼系统的架构示意图；

图4为本申请实施例提供的一种智能问答系统的架构示意图；

图5为本申请实施例提供的一种基于Bert网络的特征提取网络的结构示意图；

图6为本申请实施例提供的一种确定AI客服的客服会话信息的示意图；

图7为本申请实施例提供的一种计算用户会话信息和候选关键内容的匹配度值的示意图；

图8为本申请实施例提供的一种用户与客服进行会话的示意图；

图9为本申请实施例提供的一种提取用户信息的示意图；

图10为本申请实施例提供的一种信息抽取模型抽取用户信息的示意图；

图11为本申请实施例提供的一种用户信息抽取效果的对比示意图；

图12为本申请实施例提供的一种会话数据的处理示意图；

图13为本申请实施例提供的另一种会话数据的处理示意图；

图14为本申请实施例提供的一种广告推荐的流程示意图；

图15为本申请实施例提供的一种信息处理装置的结构示意图；

图16为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种信息处理方法，与现有技术相比，本申请实施例对于每个初始用户，基于初始用户的客服咨询数据，确定该初始用户对应于目标媒体信息的意图类型，该意图类型表征了初始用户对目标媒体信息的感兴趣程度，实现了自动化确定每个用户对于目标媒体信息的感兴趣程度，并基于各初始用户的意图类型对各初始用户进行自动化过滤，可以大幅的降低人力成本，快速地从海量用户中筛选出对目标媒体信息感兴趣的目标用户，从而在后续投放待处理媒体信息时，可以基于目标用户的用户信息对待处理媒体信息的投放策略进行优化，实现了媒体信息的反哺投放，即将待处理媒体信息投放给对目标媒体信息感兴趣的目标用户，从而实现精准化投放媒体信息，降低投放成本，提高投放效率。

本申请各可选实施例可以基于人工智能技术实现，如利用人工智能技术确定初始用户对应于目标媒体信息的意图类型，并基于各初始用户的意图类型，对各初始用户进行过滤，还可以利用人工智能技术获取目标媒体信息所对应的各初始用户的客服咨询数据。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请所提供的各可选实施例所涉及到的数据，可以基于云技术实现，在方案实施时所涉及的数据处理/数据计算可以基于云计算实现。

云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术（Cloudtechnology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分，在IaaS（Infrastructure as a Service，基础设施即服务）层上可以部署PaaS(Platform as a Service，平台即服务)层，PaaS层之上再部署SaaS(Software as a Service，软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

云计算(cloud computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算（Grid Computing )、分布式计算（DistributedComputing)、并行计算（Parallel Computing)、效用计算（Utility Computing)、网络存储（Network StorageTechnologies)、虚拟化（Virtualization)、负载均衡（Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

本申请实施例提供了一种信息处理方法，可以由任一电子设备执行，该电子设备可以为终端设备，也可以为服务器或者服务器集群，服务器集群包括至少两个服务器，任一服务器可以为物理服务器，也可以为前文所提及的云服务器，可以在电子设备上运行一个软件，由软件执行本申请实施例中的信息处理方法，该软件可以是与信息处理相关的小程序或者与信息处理相关的应用程序。

在一种可能的实现方式中，多个服务器可组成为一区块链，而服务器为区块链上的节点，本申请实施例中的信息处理方法可以由区块链上的至少一个节点执行，即本申请实施例中的服务器或者服务器集群可以为区块链上的一个或者至少两个节点。

如图1所示，图1为本申请实施例提供的一种信息处理方法的流程示意图，可选的，该方法可以由服务器或服务器集群执行。该方法包括步骤S11-步骤S14。

步骤S11，获取目标媒体信息所对应的各初始用户的客服咨询数据，客服咨询数据包括客服与初始用户之间的会话数据。

本申请实施例中，目标媒体信息不做限定，例如，目标媒体信息可以为广告主想要投放或者已经投放的广告信息。客服咨询数据包括但不限于客服与初始用户之间的会话数据，客服可以为人工客服，也可以为AI客服，在此不做限定。

其中，对于每个初始用户，步骤S11中，获取目标媒体信息所对应的各初始用户的客服咨询数据，具体可以包括获取方式A1或获取方式A2中的至少一种。

获取方式A1，获取初始用户的至少一种联系方式信息，基于初始用户的联系方式信息，利用人工智能AI客服建立与初始用户的通信连接，并基于目标媒体信息获取AI客服与初始用户之间的会话数据。

本申请实施例中，初始用户的至少一种联系方式信息的获取方式不做限定。例如，可以向初始用户发放表单，以使初始用户填写表单中的用户信息，该用户信息可以包括姓名、性别、出生年月日、年龄、住址、至少一种联系方式、爱好等信息。可以通过获取初始用户填写好的表单，从而直接获取到初始用户的至少一种联系方式信息。

其中，联系方式信息也不做限定，例如，联系方式信息可以包括电话、某一应用程序的账号、某一应用程序的昵称等中的至少一项。

需要说明的是，表单中包括但不限于用户信息，在一种可能的实现方式中，表单可以包括目标媒体信息和用户信息。如图2所示，图2为本申请实施例提供的一种表单的示意图。该表单中包括广告信息和用户信息，广告信息包括广告图片和广告文字说明，用户信息包括姓名、电话、性别等。

进一步的，可以基于初始用户的联系方式信息，利用AI客服建立与初始用户的通信连接，并基于目标媒体信息获取AI客服与初始用户之间的会话数据。

例如，当联系方式信息为电话号码时，可以利用AI客服拨打初始用户的电话号码，当用户接听电话时，成功建立AI客服与初始用户的通信连接，此时，AI客服可以基于目标媒体信息与初始用户进行通话，通话数据即为AI客服与初始用户之间的会话数据。

又如，当联系方式信息为某一应用程序的账号时，可以利用AI客服与初始用户进行视频交流或者语音交流或者文字交流等，交流数据即为AI客服与初始用户之间的会话数据。

在实际使用时，电话号码是最为常见的一种联系方式信息，可以搭建智能外呼系统，以基于电话号码利用AI客服与初始用户进行交流时。如图3所示，图3为本申请实施例提供的一种智能外呼系统的架构示意图。

具体的，该智能外呼系统包括访问层、转发层、监控告警、电话机器人平台、以及数据存储五个部分，下面将分别进行介绍这五个部分。

访问层主要包括外呼管理台、用户手机和客服电话等，外呼管理台用于管理AI客服与用户手机之间的通话，以及AI客服转人工客服，以使人工客服使用客服电话与用户手机进行通话。可以理解的是，用户通话的工具包括但不限于用户手机，例如，还可以为智能手表、电话、平板电脑等。

转发层主要包括网关、运营商通道和服务商客服通道，其中，网关可以是云网关。

监控告警包括秒级监控、日志分析、飞行时间技术以及网管，其中，日志分析可以是基于ELK（Elasticsearch+Logstash+Kibana）的日志分析，飞行时间技术可以是基于飞行时间法（Time Of Flight，TOF）的技术，网管可以是基于临时文件（TMP）的网管。

电话机器人平台包括呼叫管理系统、智能问答系统、语音控制系统三大部分，其中，呼叫管理系统包括任务管理、任务调度、话单管理以及商户管理，智能问答系统包括话术模板和智能问答，语音控制系统包括电话交换以及媒体资源控制协议（Media ResourceControl Protocol，MRCP）服务两部分，其中，电话交换可以是基于Freeswitch（一个电话的软交换解决方案，包括一个软电话和软交换机，用以提供语音和聊天的产品驱动）的交换，电话交换包括通话控制、机器人接入、通话录音以及MRCP接入，MRCP服务包括语音接入、识别判断、放音判断以及语音转存，其中，语音接入可以是基于自动语音识别（AutomaticSpeech Recognition，ASR）技术的接入，也可以是基于从文本到语音（Text To Speech，TTS）技术的接入，在语音转存时，可以先对语音进行质量检测，然后对检测后的语音进行存储。

数据存储包括配置数据库（Configuration Database，CDB）、结构化数据库和分布式文件系统（Ceph）中的至少一项。

可以理解的是，在图3中，呼叫管理系统可以通过网关与外呼管理台进行通信，语音控制系统可以通过运营商通道与用户手机通信，语音控制系统可以通过服务商客服通道与客服电话通信，语音控制系统主要依赖于ASR技术和TTS技术实现。

本申请实施例中，呼叫管理系统主要负责外呼任务的创建、管理以及调度，智能问答系统涉及话术模版配置以及智能问答，主要用于AI客服进行智能回复，语音控制系统则控制通话的拨打与接入，并通过MRCP服务调用ASR、TTS算法服务。

其中，如图4所示，图4为本申请实施例提供的一种智能问答系统的架构示意图。具体的，用户会话信息可以作为智能问答系统的输入，可以先对用户会话信息进行预处理，该预处理可以包括同义词替换、同音词替换或空字符过滤等中的至少一项，利用拦截器对预处理后的用户会话信息进行拦截，可以从声音拦截和语义拦截两方面进行拦截，将有声音或者是有人声的，且为预设语义类别的用户会话信息经过核心处理。对用户会话信息进行核心处理时，可以结合该用户会话信息的上下文、话术模板、以及对该用户会话信息进行问题理解，确定该用户会话信息的处理结果，其中，问题理解包括会话类型判断和关键内容匹配，会话类型可以表征用户对应的会话状态或者用户对于目标媒体信息的感兴趣状态。用户会话信息的处理结果包括输出客户会话信息、AI客服转人工客服、挂机（即结束通话）、以及短信（即短信回复）中的至少一项。

其中，在一种可能的实现方式中，基于目标媒体信息获取AI客服与初始用户之间的会话数据，具体可以包括：

基于目标媒体信息，通过AI客服与初始用户进行会话，基于会话中初始用户的用户会话信息确定初始用户对应的会话类型；基于初始用户对应的会话类型，通过AI客服向初始用户提供与会话类型对应的客服会话信息；将初始用户对应的用户会话信息和客服会话信息，作为AI客服与初始用户之间的会话数据。

本申请实施例中，在AI客服与初始用户进行会话时，会话中初始用户的用户会话信息可以为至少一条。对于每一条用户会话信息，可以通过会话类型分类模块确定初始用户对应的会话类型，会话类型分类模块也可以称为通用意图分类模块。

其中，通用意图分类模块是预训练好的意图分类模型，对于意图分类模型的具体模型结构本申请实施例不做限定，可选的，通用意图分类模型可以包括特征提取网络和分类网络。作为一可选方案，特征提取网络可以是采用基于变换器的双向编码器表征（Bidirectional Encoder Representations from Transformers，Bert）网络，如图5所示，图5为本申请实施例提供的一种基于Bert网络的特征提取网络的结构示意图。

具体地，句子包括N个字符，这N个字符分别为

，N均为正整数。在将句子输入Bert网络中时，需要在句子A前添加

标志，也就是说，需要将句子输入Bert网络时，实际输入的是

标志、

。

其中，

标志是Bert网络中有特殊作用的字符，

标志放在第一个句子的前面。

将

标志、

输入至Bert网络中时，需要将每一个字符转化为该字符对应的初始特征向量，将每一个字符的初始特征向量输入至Bert网络中，由Bert网络输出每一个字符的最终特征向量。

如图5中，将各字符

标志、

一一转化为各字符各自对应的初始特征向量

，然后，将

输入至Bert网络中，Bert网络输出每一个字符对应的最终特征向量，分别为

。

其中，

为Bert网络输出的分类符号位所对应的特征向量，可以用

来表示输入Bert网络的句子的句向量。

本申请实施例中，用户会话信息中包括多个字符，在将用户会话信息输入至Bert网络中时，可以在用户会话信息前添加

标志，然后将每一个字符转化为该字符对应的初始特征向量，将每一个字符的初始特征向量输入至Bert网络中，由Bert网络输出分类符号位所对应的特征向量，作为用户会话信息的语义特征。

进一步的，将用户会话信息的语义特征输入至分类网络，由分类网络输出初始用户对应的会话类型。

通用意图分类模型中的分类网络的结构不做限定，当然，在实际应用时，通用意图分类模型中的特征提取网络包括但不限于Bert网络。

在训练通用意图分类模型时，可以预先获取历史对话数据，对于历史对话数据中的每一个语句，预先标注该语句对应的会话类型，利用带有标注的语句组成通用意图分类模型的训练数据集，以利用训练数据集训练得到通用意图分类模型。

在一种可能的实现方式中，会话类型包括目标类型或非目标类型，目标类型表征了初始用户对应的会话状态或者初始用户对于目标媒体信息的感兴趣状态，基于初始用户对应的会话类型，通过AI客服向初始用户提供与会话类型对应的客服会话信息，具体可以包括：

若会话类型为目标类型，获取目标类型对应的客服会话信息，将客服会话信息提供给初始用户，以获取初始用户对于客服会话信息的用户会话信息；若会话类型为非目标类型，从各候选关键内容中确定出与用户会话信息的匹配度最高的候选关键内容，将确定出的候选关键内容所对应的回复语句作为客服会话信息，并将客服会话信息提供给初始用户，以获取初始用户对于客服会话信息的用户会话信息。

本申请实施例中，初始用户对应的会话状态即为初始用户对于会话所表现出的用户状态，例如，初始用户对应的会话状态可以是用户对于会话所表现出的用户的状态或会话的状态等，其中，用户的状态和会话的状态均可以根据需求配置，可选的，用户的状态可以包括用户忙碌或用户不忙碌等，会话的状态可以是用户没听清或用户听清楚了等。

同样的，初始用户对于目标媒体信息的感兴趣状态也可以根据需求配置，可选的，初始用户对于目标媒体信息的感兴趣状态可以包括用户对于目标媒体信息感兴趣或者不感兴趣等。

如图6所示，图6为本申请实施例提供的一种确定AI客服的客服会话信息的示意图。具体的，对于每一条用户会话信息，可以先对该用户会话信息进行会话类型分类，得到用户对应的会话类型。若会话类型为目标类型，则获取目标类型对应的客服会话信息，并将该客服会话信息提供给初始用户，以获取初始用户对于客服会话信息的用户会话信息；若会话类型为非目标类型，则利用候选关键内容库中的各候选关键内容与该用户会话信息进行语义匹配，以从各候选关键内容中确定出与该用户会话信息的匹配度最高的候选关键内容，确定出的候选关键内容所对应的回复语句，即为匹配的候选关键内容对应的客服会话信息，将该客服会话信息提供给初始用户，以获取初始用户对于客服会话信息的用户会话信息。

可以理解的是，在利用候选关键内容库中的各候选关键内容与该用户会话信息进行语义匹配时，可以先从各匹配度中挑选大于或等于预设匹配度的匹配度，再从挑选出的匹配度中选择最高匹配度，该最高匹配度对应的候选关键内容作为匹配的候选关键内容。

在实际应用时，可能存在各条候选关键内容与该用户会话信息的匹配度均小于预设匹配度，对于这种情况，可以预先设置若干条该情况对应的客服会话信息，从预先设置的客服会话信息中挑选任一条客服回话信息提供给初始用户。

在对用户会话信息和候选关键内容进行语义匹配时，可以分别计算用户会话信息和候选关键内容各自的语义特征，并利用二者的语义特征进行匹配度计算，得到用户会话信息和候选关键内容的匹配度值，其中，匹配度也称为相似度。

为了降低线上的实时计算量，提高线上语义匹配的效率，在一种可能的实现方式中，可以离线计算各候选关键内容的语义特征，并将计算的各语义特征存储在预设存储区域中。当线上获取到用户会话信息时，可以在线实时计算该用户会话信息的语义特征，从预设存储区域中读取每一条候选关键内容的语义特征，并利用该用户会话信息的语义特征和读取的候选关键内容的语义特征，计算该用户会话信息和该候选关键内容的匹配度值。

如图7所示，图7为本申请实施例提供的一种计算用户会话信息和候选关键内容的匹配度值的示意图。具体的，对于每一候选关键内容，可以预先离线计算该候选关键内容的语义特征，对于用户会话信息，可以在线计算该用户会话信息的语义特征，利用用户会话信息的语义特征和候选关键内容的语义特征进行匹配度计算，得到用户会话信息和候选关键内容的匹配度值。

本申请实施例中，匹配度计算的具体算法不做限定，例如，可以计算余弦距离，该余弦距离作为匹配度值；也可以计算欧式距离，该欧式距离作为匹配度值。

获取方式A2，获取人工客服与初始用户之间的对应于目标媒体信息的会话数据。

本申请实施例中，可以直接获取到人工客服与初始用户之间的对应于目标媒体信息的会话数据。如图8所示，图8为本申请实施例提供的一种用户与客服进行会话的示意图。具体的，该示例中目标媒体信息为烘焙课程的广告，用户可以通过触发标号81所指示的显示界面上的“在线咨询”控件，转至标号82所指示的显示界面上。其中，标号81所指示的显示界面上包括烘焙课程广告图片、用户可选择的地址信息、以及“在线咨询”控件，用户可选择的地址即为用户的所在地址，用户可以从广州、深圳以及重庆中选择一个地址作为用户的所在地址；标号82所指示的显示界面为人工客服与初始用户进行会话的显示界面，在该显示界面中，A指代人工客服，B指代初始用户，该显示界面包括如下所示的会话信息：

A（人工客服）：您好，方便留下联系方式吗

B（初始用户）：你好

A（人工客服）：您是想了解烘焙蛋糕课程吗

B（初始用户）：麻烦介绍一下。

其中，在标号82所指示的显示界面上包括返回控件，用户可以通过触发返回控件，转至标号81所指示的显示界面。

步骤S12，对于每个初始用户，从初始用户的客服咨询数据中提取初始用户的用户信息。

本申请实施例中，对于获取方式A1，也就是直接获取到初始用户的至少一种联系方式信息，基于该联系方式信息获取AI客服与初始用户之间的会话数据。在获取初始用户的至少一种联系方式信息时，可以是直接获取到初始用户的用户信息，该用户信息中包括至少一种联系方式信息；也可以是直接获取到初始用户的至少一种联系方式信息，基于该联系方式信息获取到AI客服与初始用户之间的会话数据后，可以从会话数据中提取除联系方式信息之外的其他用户信息。

对于获取方式A2，也就是直接获取到人工客服与初始用户之间的会话数据，可以从获取的会话数据中提取初始用户的用户信息。

需要说明的是，本申请实施例中，用户信息包括但不限于姓名、性别、住址、至少一种联系方式信息等。

在一种可能的实现方式中，用户信息包括用户联系方式信息，步骤S12中，从初始用户的客服咨询数据中提取初始用户的用户信息，包括：

从初始用户的会话数据中抽取用户的初始联系信息；

在本申请实施例中，联系信息类型不做限定，相对应的，联系信息类型所对应的校验规则也不做限定。

在一种可能的实现方式中，联系信息类型可以为手机号码，此时，手机号码所对应的校验规则可以为：11位数字号码，且开头包括130-139中的任一个或者180-189中的任一个。

在另一种可能的实现方式中，联系信息类型可以为邮箱，此时，邮箱所对应的校验规则可以为：以@163.com、@qq.com等结尾。

在一种可能的实现方式中，步骤S12中，从初始用户的客服咨询数据中提取初始用户的用户信息，具体可以包括：

将会话数据进行拆分，得到各子会话数据，其中，每个子会话数据包括相邻的至少一个客服会话语句和至少一个初始用户的用户会话语句；对于每个子会话数据，将子会话数据包含的各语句进行拼接，基于拼接后的语句提取初始用户的用户信息。

本申请实施例中，可以将会话数据拆分成各子会话数据，对于每个子会话数据，将子会话数据包含的各语句进行拼接。其中，每个子会话数据包括相邻的至少一句客服会话语句和至少一句初始用户的用户会话语句。拼接方式在本申请实施例中不做限定，在一种可能的实现方式中，对于每一个子会话数据，可以在该子会话数据包含的任两个语句之间添加分隔符。

例如，对于如下所示的会话数据：

客服：您好，很高兴为您咨询介绍！

客服：方便的话留下您的手机号码。

用户：我的手机号是138XXXXXXXX。

客服：好的，怎么称呼您

用户：刘先生。

客服：收到，我们会尽快联系您，稍后项目经理给您详细介绍！

用户：好的。

可以将上述会话数据拆分成三个子会话数据，分别记为子会话数据1、子会话数据2和子会话数据3，子会话数据1包括前三个语句，子会话数据2包括第四个语句和第五个语句，子会话数据3包括后两个语句。对于每个子会话数据，将子会话数据包含的各语句进行拼接，拼接时，在该子会话数据包含的任两个语句之间添加分隔符##。

子会话数据1如下所示：

客服：您好，很高兴为您咨询介绍！##客服：方便的话留下您的手机号码。##用户：我的手机号是138XXXXXXXX。

子会话数据2如下所示：

客服：好的，怎么称呼您

##用户：刘先生。

子会话数据3如下所示：

客服：收到，我们会尽快联系您，稍后项目经理给您详细介绍！##用户：好的。

进一步地，对于每一个子会话数据，基于拼接后的语句提取初始用户的用户信息，提取用户信息的方式不做限定。在一种可能的实现方式中，用户信息是通过预训练好的信息抽取模型从会话数据中抽取得到的。

如图9所示，图9为本申请实施例提供的一种提取用户信息的示意图。具体地，子会话数据包括语句A和语句B，且语句A与语句B拼接时，在语句A与语句B之间添加分隔符##，得到拼接后的语句“语句A##语句B”，将该拼接后的语句输入至信息抽取模型中，由信息抽取模型中的特征提取网络提取该拼接后的语句中各字符的语义特征，再由信息抽取模型中的序列化标注网络，基于各字符的语义特征得到各个字符的信息类别标签。其中，图9中，若字符的信息类别标签为O，表示该字符不是抽取的用户信息，若字符的信息类别标签为B，表示该字符是抽取的用户信息的开头部分，若字符的信息类别标签为I，表示该字符是抽取的用户信息的中间部分，其中，抽取的用户信息包括一个开头部分和至少一个中间部分，即，一个信息类别标签为B的字符和信息类别标签为O的各个字符，组成抽取的用户信息。

本申请实施例中，信息抽取模型中的特征提取网络的具体网络结构不做限定，例如，该特征提取网络可以是Bert网络，也可以是双向长短期记忆（Bi-directional LongShort-Term Memory，BILSTM）网络；信息抽取模型中的序列化标注网络的具体网络结构也不做限定，例如，该序列化标注网络可以是条件随机场（Conditional Random Field，CRF）网络。

如图10所示，图10为本申请实施例提供的一种信息抽取模型抽取用户信息的示意图。具体地，拼接后的语句包括多个字符，分别表示为字符1、字符2、字符3、…、字符n。对于每一个字符，先将该字符映射为字符的初始向量，字符1、字符2、字符3、…、字符n的初始向量分别记为e₁₀、e₂₀、e₃₀、…、e_n0。

利用第一个字符的初始向量得到第一个字符对应的从左向右编码的向量，即利用e₁₀得到l₁，对于第二个字符至最后一个字符中的任一个字符，利用该字符的初始向量以及前一个字符对应的从左向右编码的向量，得到该字符对应的的从左向右编码的向量。

例如，对于第二个字符，利用第二个字符的初始向量以及第一个字符对应的从左向右编码的向量，得到第二个字符对应的从左向右编码的向量，即利用e₂₀以及l₁得到l₂；对于第三个字符，利用第三个字符的初始向量以及第二个字符对应的从左向右编码的向量，得到第三个字符对应的从左向右编码的向量，即利用e₃₀以及l₂得到l₃；以此类推，对于最后一个字符，利用最后一个字符的初始向量以及倒数第二个字符对应的从左向右编码的向量，得到最后一个字符对应的从左向右编码的向量，即利用e_n0以及l_n-1得到l_n。

利用最后一个字符的初始向量得到最后一个字符对应的从右向左编码的向量，即利用e_n0得到r_n，对于第一个字符至倒数第二个字符中的任一个字符，利用该字符的初始向量以及后一个字符对应的从右向左编码的向量，得到该字符对应的的从右向左编码的向量。

例如，对于第三个字符，利用第三个字符的初始向量以及第四个字符对应的从右向左编码的向量，得到第三个字符对应的从右向左编码的向量，即利用e₃₀以及r₄得到r₃；对于第二个字符，利用第二个字符的初始向量以及第三个字符对应的从右向左编码的向量，得到第二个字符对应的从右向左编码的向量，即利用e₂₀以及r₃得到r₂；对于第一个字符，利用第一个字符的初始向量以及第二个字符对应的从右向左编码的向量，得到第一个字符对应的从右向左编码的向量，即利用e₁₀以及r₂得到r₁。

对于每一个字符，利用该字符对应的从左向右编码的向量以及从右向左编码的向量，得到该字符的最终向量。例如，对于第一个字符，利用l₁以及r₁得到e₁₁；对于第二个字符，利用l₂以及r₂得到e₂₁；对于第三个字符，利用l₃以及r₃得到e₃₁；以此类推，对于最后一个字符，利用l_n以及r_n得到e_n1。

进一步地，将各字符的最终向量输入至序列化标注网络中，由序列化标注网络输出各字符的信息类别标签，其中，若字符的信息类别标签为O，表示该字符不是抽取的用户信息，若字符的信息类别标签为B，表示该字符是抽取的用户信息的开头部分，若字符的信息类别标签为I，表示该字符是抽取的用户信息的中间部分。进一步地，由标签为B的字符和标签为I的字符组合成用户信息。

获取多个第一样本会话数据；对于每一个第一样本会话数据，对第一样本会话数据进行数据增强处理，得到至少一个第二样本会话数据；其中，训练数据集包括各第一样本会话数据和各第二样本会话数据。

用户信息的抽取主要是提取会话数据中与用户相关的信息，包括但不限于用户称呼（即姓名）、联系方式（如手机号、微信号等），属于自然语言处理领域中的一项命名实体识别（Named Entity Recognition，NER），也可以看作一种序列标注问题，本质上是对输入文本序列中每个元素根据上下文内容进行标签分类。

在实际应用时，用户信息抽取主要存在以下难点：

第一，线上不断有新的会话数据接入，数据复杂多变，与训练数据存在一定差异。

第二，训练信息抽取模型时，无法短期累积大量的训练数据，导致训练数据的规模较小，信息抽取模型的抽取效果较差。

第三，用户称呼的文本表现形式多样，模型需要能提取丰富的语义特征，以及具备一定的鲁棒性。

第四，手机号与微信号等的抽取易混淆，需要模型能充分理解会话上下文。

基于上述难点，在本申请实施例中，可以获取线上真实的客服与用户的会话数据，作为第一样本会话数据，并利用第一样本会话数据训练得到信息抽取模型，以使模型可以针对线上复杂多变的会话数据，有效提取该会话数据中的用户信息。

在实际应用时，在获取到多个第一样本会话数据时，对于每一个第一样本会话数据，需要对第一样本会话数据进行数据增强处理，得到至少一个第二样本会话数据，以丰富信息抽取模型的训练数据，提高模型的抽取效果，丰富模型提取的语义特征，使模型具有一定的鲁棒性。

为了让信息抽取模型充分理解会话上下文，对于训练数据集中的每一个训练数据，该训练数据包括至少一句样本客服的样本客服会话语句和至少一句样本用户的样本用户会话语句，且该训练数据中的各个语句拼接在一起。训练数据的相关说明详见子会话数据的相关说明，二者实现逻辑类似，在此不再赘述。

在一种可能的实现方式中，第一样本会话数据包括样本用户信息，对第一样本会话数据进行数据增强处理，得到至少一个第二样本会话数据，包括方式B1和方式B2中的至少一项。

方式B1，对第一样本会话数据中的样本用户信息所包含的至少一项信息进行替换，得到至少一个第二样本会话数据。

本申请实施例中，可以基于样本用户信息的组成元素，对第一样本会话数据中的样本用户信息所包含的至少一项信息进行替换，得到至少一个第二样本会话数据。

在一种可能的实现方式中，样本用户信息包含姓名，可以利用百家姓数据对第一样本会话数据中的称呼信息（即姓）进行替换，来提高模型抽取姓名的效果。

在另一种可能的实现方式中，样本用户信息包括电话号码，可以通过数字对第一样本会话数据中的电话号码进行替换，以提高模型抽取电话号码的效果。

在另一种可能的实现方式中，样本用户信息包括邮箱数据，可以通过数字和字符对第一样本会话数据中的邮箱数据进行替换，以提高模型抽取邮箱数据的效果。

方式B2，确定第一样本会话数据所包含的各语句中与至少一个预设语句语义匹配度最高的目标语句，利用预设句子分别替换第一样本会话数据中的目标语句，得到至少一个第二样本会话数据。

本申请实施例中，可以预先收集若干条模板语句，每一条模板语句即为方式B2中的预设语句。对于第一样本会话数据所包含的各个语句，可以计算每一条语句与每一条预设语句之间的语义匹配度，将语义匹配度最高的目标语句替换为对应的预设语句，以实现样本数据的增强。

在实际应用时，在计算出每一条语句与每一条预设语句之间的语义匹配度后，还可以将语义匹配度大于预设语义匹配度阈值的目标语句替换为对应的预设语句。

在实际应用时，可以利用数据增强后的训练样本集训练得到信息抽取模型，在一种可能的实现方式中，信息抽取模型包括BILSTM网络和CRF网络，在另一种可能的实现方式中，信息抽取模型包括Bert网络和CRF网络，在又一种可能的实现方式中，在利用包含Bert网络和CRF网络的信息抽取模型抽取出用户信息后，可以对用户信息中的初始联系信息进行校验。

如图11所示，图11为本申请实施例提供的一种用户信息抽取效果的对比示意图。其中，信息抽取模型包括BILSTM网络和CRF网络时，可以记为BILSTM+CRF，信息抽取模型包括Bert网络和CRF网络时，可以记为Bert+CRF，信息抽取模型包括Bert网络和CRF网络，且对用户信息中的初始联系信息进行校验时，可以记为Bert+CRF+校验。其中，图11中的效果指的是F1分数（F1 Score），单位为百分比（%），具体计算方式在此不做限制。

对于BILSTM+CRF，其对用户信息的总体抽取效果为75.9%，对称呼的抽取效果为52.9%，对联系方式（包括手机号和微信号）的抽取效果为83.5%，对手机号的抽取效果为86%，对微信号的抽取效果为72.3%。

对于Bert+CRF，其对用户信息的总体抽取效果为85.6%，对称呼的抽取效果为85.7%，对联系方式（包括手机号和微信号）的抽取效果为85.6%，对手机号的抽取效果为87.2%，对微信号的抽取效果为79.8%。

对于Bert+CRF+校验，其对用户信息的总体抽取效果为88.8%，对称呼的抽取效果为85.7%，对联系方式（包括手机号和微信号）的抽取效果为89.8%，对手机号的抽取效果为89.8%，对微信号的抽取效果为86.8%。

由于Bert+CRF的抽取效果明显优于BILSTM+CRF的抽取效果，在实际应用时，可以利用预训练好的Bert网络和CRF网络，组成初始模型，并利用训练数据集对初始模型进行训练，得到训练好的信息抽取模型。

由于Bert网络通过大规模语料预训练过，因此在用训练数据集对初始模型进行训练时，可以为Bert网络设置非常小的学习率（例如0.00001）来对Bert网络进行细调，而由于CRF网络是从零开始训练，可以为CRF网络设置偏大的学习率（例如0.01）来对CRF网络训练。此外，为了防止模型的过拟合，可以将dropout设置为0.9，并且严格控制训练迭代数，以提升模型的鲁棒性与抽取效果。

其中，dropout指的是某个神经元停止工作的概率，训练迭代次数可以为六个epoch即6epoch，一个epoch指的是训练数据集训练过一次。

步骤S13，对于每个初始用户，基于初始用户的客服咨询数据，确定初始用户对应于目标媒体信息的意图类型，意图类型表征了初始用户对目标媒体信息的感兴趣程度。

本申请实施例中，可以利用意图判别模型确定初始用户对应于目标媒体信息的意图类型。具体的，意图判别模型可以基于初始用户的客服咨询数据，提取客服咨询数据对应的全局特征，并基于全局特征确定初始用户对应于目标媒体信息的意图类型。

在一种可能的实现方式中，对于每个初始用户，基于初始用户的客服咨询数据，确定初始用户对应于目标媒体信息的意图类型，具体可以包括：

提取会话数据所包含的各语句的局部会话特征；将各局部会话特征进行拼接，基于拼接后的特征提取会话数据对应的全局会话特征；基于全局会话特征，确定初始用户对应于目标媒体信息的意图类型。

本申请实施例中，在利用意图判别模型确定初始用户对应于目标媒体信息的意图类型时，主要存在以下难点：

首先，由于模型输入的长度限制，无法直接将会话数据中的所有语句拼接输入，因此，会话数据对应的全局会话特征的提取是一个关键点；其次，客服与用户的会话内容具有抽象的语义，模型能否从会话数据中学习到相关语义信息，以成功得到初始用户的意图类型也是一个关键点。

基于上述难点，意图判别模型可以提取会话数据所包含的各语句的局部会话特征，并将各局部会话特征进行拼接，基于拼接后的特征提取会话数据对应的全局会话特征，然后基于全局会话特征，整体确定初始用户对应于目标媒体信息的意图类型。

如图12所示，图12为本申请实施例提供的一种会话数据的处理示意图。具体地，是利用意图判别模型确定会话数据的意图类型，在对意图判别模型进行训练时，可以进一步结合会话数据的意图标签，计算损失值，以利用损失值优化意图判别模型的模型参数，其中，意图判别模型为单任务的意图判别模型，包括至少两个特征提取网络、特征拼接网络、全连接层以及Softmax层，其中，Softmax层用于进行归一化处理。

会话数据中包括多个语句，分别记为语句1、语句2、…、语句n，n为正整数。对于每一个语句，可以将该语句输入至对应的特征提取网络，得到该语句对应的局部会话特征，其中，各个特征提取网络之间可以相互交流。

例如，语句1经过特征提取网络1，可以得到语句1对应的局部会话特征1；语句2经过特征提取网络2，可以得到语句2对应的局部会话特征2；以此类推，语句n经过特征提取网络n，可以得到语句n对应的局部会话特征n，其中，特征提取网络1-n之间的任两个特征提取网络可以相互交流。

可以理解的是，特征提取网络的具体网络结构在本申请实施例中不做限定，例如，特征提取网络可以为Bert网络。

进一步地，可以将各个局部会话特征输入至特征拼接网络，得到会话数据对应的全局会话特征，其中，特征拼接网络的具体网络结构不做限定，例如，可以为卷积神经网络(Convolutional Neural Networks，CNN)，且CNN具有强大的局部特征捕获能力，善于从局部特征出发抽取抽象的全局特征。

例如，将局部会话特征1、局部会话特征2、…、局部会话特征n输入至CNN，得到会话数据对应的全局会话特征。

进一步地，将会话数据对应的全局会话特征依次输入全连接层和Softmax层，可以得到会话数据对应的意图类型，本申请实施例中，会话数据对应的意图类型即为初始用户对应于目标媒体信息的意图类型。

在对意图判别模型进行训练时，对于训练样本集中的任一个训练样本，该训练样本为会话数据，可以利用意图判别模型输出会话数据对应的意图类型，利用会话数据的意图标签，计算意图判别模型对应的损失值，以利用计算得到的损失值优化意图判别模型的模型参数。

在实际应用时，会话数据中的语句数量是不同的，会话数据中每一个语句所包含的字符数也是不同的，可以预设设置语句数量阈值和字符数量阈值，例如，语句数量阈值和字符数量阈值均为20，在将会话数据输入意图判别模型中时，可以输入20个语句，且每个语句中包含20个字符。若语句或者字符的数量小于20，则采用填补字符补充至20个字符，采用填补字符补充至预设数量个字符的过程也称为padding补充，若语句或者字符的数量大于20，则截断处理。

另一种可能的实现方式中，该方法还可以包括：基于每个语句的局部会话特征，确定各语句对应的局部意图类型。

此时，基于全局会话特征，确定初始用户对应于目标媒体信息的意图类型，具体可以包括：

基于全局会话特征，确定会话数据对应的全局意图类型；基于各语句对应的局部意图类型和全局意图类型，确定初始用户对应于目标媒体信息的意图类型。

在本申请实施例中，对于会话数据中的每个语句，还可以基于该语句的局部会话特征，确定该语句对应的局部意图类型。此时，可以基于全局会话特征，确定会话数据对应的全局意图类型，并基于全局意图类型和各局部意图类型，确定初始用户对应于目标媒体信息的意图类型。

如图13所示，图13为本申请实施例提供的另一种会话数据的处理示意图。具体地，是利用意图判别模型确定会话数据的全局意图类型和各语句的局部意图类型，进一步结合全局意图类型和各局部意图类型，确定最终的意图类型，即初始用户对应于目标媒体信息的意图类型。

在对意图判别模型进行训练时，可以利用全局意图类型结合会话数据的意图标签，计算第一损失值，对于会话数据中的每一个语句，可以利用该语句的局部意图类型结合该语句的意图标签，计算第二损失值，进一步基于第一损失值和第二损失值计算最终的损失值，以利用最终的损失值优化意图判别模型的模型参数。

其中，意图判别模型为多任务的意图判别模型，包括至少两个特征提取网络、特征拼接网络、以及至少两个全连接层以及至少两个Softmax层，其中，Softmax层用于进行归一化处理。

一方面，可以将各个局部会话特征输入至特征拼接网络，得到会话数据对应的全局会话特征，其中，特征拼接网络的具体网络结构不做限定，例如，可以为卷积神经网络(Convolutional Neural Networks，CNN)，且CNN具有强大的局部特征捕获能力，善于从局部特征出发抽取抽象的全局特征。

进一步地，将会话数据对应的全局会话特征依次输入全连接层1和Softmax层1，可以得到会话数据对应的全局意图类型。

另一方面，对于会话数据中的每一个语句，可以将该语句的局部会话特征依次输入全连接层2和Softmax层2，得到该语句对应的局部意图类型。

例如，将局部会话特征1依次输入全连接层2和Softmax层2，得到语句1对应的局部意图类型；将局部会话特征2依次输入全连接层2和Softmax层2，得到语句2对应的局部意图类型；以此类推，将局部会话特征n依次输入全连接层2和Softmax层2，得到语句n对应的局部意图类型。

可以理解的是，任意两个局部会话特征依次输入的全连接层2和Softmax层2，可以是同一个全连接层和同一个Softmax层，也可以是不同的全连接层和不同的Softmax层，在此不做限定。

进一步的，可以利用会话数据对应的全局意图类型和各语句对应的局部意图类型，确定最终的意图类型，即初始用户对应于目标媒体信息的意图类型。需要说明的是，全局意图类型的数量和局部意图类型的数量可以相同也可以不同，例如，全局意图类型的数量可以为两个，包括感兴趣和不感兴趣，局部意图类型的数量可以为5个，包括特别感兴趣、稍微感兴趣、中性、稍微不感兴趣和特别不感兴趣。

在对意图判别模型进行训练时，对于训练样本集中的任一个训练样本，该训练样本为会话数据，可以利用意图判别模型输出会话数据对应的全局意图类型，利用会话数据的意图标签，计算第一损失值；对于会话数据中的每一个语句，可以利用意图判别模型输出该语句对应的局部意图类型，利用该语句的意图标签，计算第二损失值；利用第一损失值和第二损失值计算意图判别模型对应的损失值，以利用计算得到的损失值优化意图判别模型的模型参数。

本申请实施例中，多任务的意图判别模型可以比单任务的意图判别模型的准确率高，可以提升6.3%的准确率，在其他方面，例如精确率、召回率和F1值方面，均有不同程度的提升。如下表所示：

模型	准确率（%）	精确率（%）	召回率（%）	F1值（%）
					单任务的意图判别模型	84.3	83.9	92.5	88
多任务的意图判别模型	90.6	90.8	94.5	92.6

其中，准确率、精确率、召回率和F1值的计算方式并非本申请实施的重点，在此不再赘述。

步骤S14，基于各初始用户的意图类型，对各初始用户进行过滤，以基于过滤后的各用户的用户信息对待处理媒体信息的投放策略进行优化，待处理媒体信息包括目标媒体信息或除目标媒体信息之外的其他媒体信息中的至少一项。

本申请实施例中，可以基于各初始用户的意图类型，将对目标媒体信息不感兴趣的初始用户过滤掉，得到目标用户。在后续对目标媒体信息进行投放，或者对除目标媒体信息之外的其他媒体信息进行投放时，可以将媒体信息投放给目标用户，实现媒体信息的精准投放，降低人力成本。

上述从方法步骤对本申请实施例进行了详细说明，下面将结合具体的场景（即广告信息的推荐场景）对本申请实施例进行进一步阐述。在该场景中，目标媒体信息为目标广告，客服咨询数据也可以称为客资。其中，客资即为客户资源，包括初始用户的用户信息以及初始用户与客服之间的会话数据等，其中，用户信息包括姓名、至少一种联系方式信息、性别或者住址等中的至少一项，联系方式信息包括电话号码、应用程序的账号名或者邮箱等中的至少一项。

如图14所示，图14为本申请实施例提供的一种广告推荐的流程示意图。本申请实施例中，在向用户投放广告时，可以通过方式C1或方式C2中的至少一项收集客资。

方式C1：向用户发放表单，当用户在表单上填写信息后，验证填写信息，并通过外呼获得会话数据。

本申请实施例中，可以向用户发放表单，如图2所示。表单中包括待填写的用户信息，用户信息中包括姓名、电话和性别，用户可以在表单上填写信息。

在获取到用户填写的用户信息后，可以验证填写信息（即填写的用户信息），可以基于至少一种信息类型所对应的校验规则对用户信息进行验证，其中，至少一种信息类型包括电话、姓名、性别等中的至少一项。

基于电话所对应的校验规则对用户信息中的电话进行校验的方式可以是：11位数字号码，且开头包括130-139中的任一个或者180-189中的任一个，或者7-8位数字号码。

基于姓名所对应的校验规则对用户信息中的姓名进行校验的方式可以是：验证用户信息中的姓名的开头是否为姓。

基于性别所对应的校验规则对用户信息中的性别进行校验的方式可以是：验证用户信息中的性别是否为男或者女。

需要说明的是，本申请实施例以及上述实施例所涉及的校验规则仅是一种可能的实现方式，可以根据实际应用需求，实时更换校验规则。

进一步的，在填写信息验证成功后，可以基于填写的用户信息中的电话，通过外呼获得用户与AI客服之间的会话数据，如图3-图7所示。基于电话，通过AI客服与初始用户进行会话，基于会话中用户的用户会话信息确定用户对应的会话类型。若会话类型为目标类型，获取目标类型对应的客服会话信息，将客服会话信息提供给用户；若会话类型为非目标类型，从各候选关键内容中确定出与用户会话信息的匹配度最高的候选关键内容，将确定出的候选关键内容所对应的回复语句作为客服会话信息，并将客服会话信息提供给用户。将用户对应的用户会话信息和客服会话信息，作为AI客服与用户之间的会话数据。

方式C2：当用户咨询客服后，可以获取会话数据，从会话数据中抽取用户信息。

本申请实施例中，用户可以主动咨询客服，如图8所示。在用户咨询客服后，可以获取到用户与客服之间的会话数据，并从会话数据中抽取用户信息，如图9-图11所示。

具体的，可以将话数据拆分成各子会话数据，每个子会话数据中包括相邻的至少一句客服会话语句和至少一句用户会话语句，对于每个子会话数据，将子会话数据包含的各语句进行拼接，得到拼接后的语句。将各拼接后的语句分别输入至预训练好的信息抽取模型，以使信息抽取模型从各拼接后的语句中抽取用户信息，进一步的，对于抽取到的用户信息中的联系方式信息，可以基于至少一种联系信息类型所对应的校验规则对该联系信息进行校验，若校验不成功，则过滤掉该联系方式信息，若各联系方式信息均校验不成功，则过滤掉对应的用户信息。

在获取到用户与客服之间的会话数据以及用户的用户信息后，可以基于会话数据判断用户对广告的意图。如图12-图13所示，可以提取会话数据所包含的各语句的局部会话特征。

在一种可能的实现方式中，将各局部会话特征进行拼接，基于拼接后的特征提取会话数据对应的全局会话特征，基于全局会话特征，确定用户对应于广告的意图类型。

在另一种可能的实现方式中，一方面，将各局部会话特征进行拼接，基于拼接后的特征提取会话数据对应的全局会话特征，并基于全局会话特征，确定会话数据对应的全局意图类型；另一方面，基于每个语句的局部会话特征，确定各语句对应的局部意图类型。进一步的，基于各语句对应的局部意图类型和全局意图类型，确定用户对应于广告的意图类型。

进一步地，根据用户对广告的意图对用户进行筛选，筛选出意图高的用户，用以反哺广告的投放，具体是基于过滤后的各用户的用户信息对后续广告的投放策略进行优化。

上述从方法步骤的角度具体阐述了信息处理方法，下面从虚拟模块的角度介绍信息处理装置，具体如下所示：

本申请实施例提供了一种信息处理装置，如图15所示，该信息处理装置150可以包括：会话数据获取模块1501、用户信息提取模块1502、用户意图类型确定模块1503以及用户过滤模块1504，其中，

会话数据获取模块1501，用于获取目标媒体信息所对应的各初始用户的客服咨询数据，客服咨询数据包括客服与初始用户之间的会话数据；

用户信息提取模块1502，用于对于每个初始用户，从初始用户的客服咨询数据中提取初始用户的用户信息；

用户意图类型确定模块1503，用于对于每个初始用户，基于初始用户的客服咨询数据，确定初始用户对应于目标媒体信息的意图类型，意图类型表征了初始用户对目标媒体信息的感兴趣程度；

用户过滤模块1504，用于基于各初始用户的意图类型，对各初始用户进行过滤，以基于过滤后的各用户的用户信息对待处理媒体信息的投放策略进行优化，待处理媒体信息包括目标媒体信息或除目标媒体信息之外的其他媒体信息中的至少一项。

在一种可能的实现方式中，用户意图类型确定模块1503具体用于：

提取会话数据所包含的各语句的局部会话特征；

在一种可能的实现方式中，用户意图类型确定模块1503还用于：基于每个语句的局部会话特征，确定各语句对应的局部意图类型；

用户意图类型确定模块1503在基于全局会话特征，确定初始用户对应于目标媒体信息的意图类型时，具体用于：

基于全局会话特征，确定会话数据对应的全局意图类型；

在一种可能的实现方式中，对于每个初始用户，会话数据获取模块1501具体用于以下至少一项：

在一种可能的实现方式中，用户信息提取模块1502在从初始用户的客服咨询数据中提取初始用户的用户信息时，具体用于：

在一种可能的实现方式中，用户信息包括用户联系方式信息，用户信息提取模块1502在从初始用户的客服咨询数据中提取初始用户的用户信息时，具体用于：

从初始用户的会话数据中抽取用户的初始联系信息；

获取多个第一样本会话数据；

在一种可能的实现方式中，会话数据获取模块1501在基于目标媒体信息获取AI客服与初始用户之间的会话数据时，具体用于：

在一种可能的实现方式中，会话类型包括目标类型或非目标类型，目标类型表征了初始用户对应的会话状态或者初始用户对于目标媒体信息的感兴趣状态，会话数据获取模块1501在基于初始用户对应的会话类型，通过AI客服向初始用户提供与会话类型对应的客服会话信息时，具体用于：

本实施例的信息处理装置可执行本申请方法实施例提供的一种信息处理方法，其实现原理相类似，此处不再赘述。

信息处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该用户界面的显示装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。

在一些实施例中，本发明实施例提供的信息处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的信息处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的信息处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application Specific IntegratedCircuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件。

在另一些实施例中，本发明实施例提供的信息处理装置可以采用软件方式实现，存储在存储器中的信息处理装置150，其可以是程序和插件等形式的软件，并包括一系列的模块，包括会话数据获取模块1501、用户信息提取模块1502、用户意图类型确定模块1503以及用户过滤模块1504；其中，会话数据获取模块1501、用户信息提取模块1502、用户意图类型确定模块1503以及用户过滤模块1504用于实现本发明实施例提供的信息处理方法。

本申请实施例提供了一种信息处理装置，与现有技术相比，本申请实施例对于每个初始用户，基于初始用户的客服咨询数据，确定该初始用户对应于目标媒体信息的意图类型，该意图类型表征了初始用户对目标媒体信息的感兴趣程度，实现了自动化确定每个用户对于目标媒体信息的感兴趣程度，并基于各初始用户的意图类型对各初始用户进行自动化过滤，可以大幅的降低人力成本，快速地从海量用户中筛选出对目标媒体信息感兴趣的目标用户，从而在后续投放待处理媒体信息时，可以基于目标用户的用户信息对待处理媒体信息的投放策略进行优化，实现了媒体信息的反哺投放，即将待处理媒体信息投放给对目标媒体信息感兴趣的目标用户，从而实现精准化投放媒体信息，降低投放成本，提高投放效率。

上述从虚拟模块或者虚拟单元的角度介绍本申请的语音信号处理装置，下面从实体装置的角度介绍本申请的电子设备。

本申请实施例提供了一种电子设备，如图16所示，图16所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图16中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，本申请实施例中的电子设备包括：存储器和处理器，其中，存储器中存储有计算机程序；处理器在运行计算机程序时，执行前述任一方法实施例所示的信息处理方法。

上述从实体装置的角度介绍本申请的电子设备，下面从存储介质的角度介绍本申请的计算机可读存储介质。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例涉及的各种可选实现方式中提供的方法。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种信息处理方法，其特征在于，包括：

获取目标媒体信息所对应的各初始用户的客服咨询数据，所述客服咨询数据包括客服与初始用户之间的会话数据；

对于每个所述初始用户，从所述初始用户的客服咨询数据中提取所述初始用户的用户信息；

对于每个所述初始用户，基于所述初始用户的客服咨询数据，确定所述初始用户对应于所述目标媒体信息的意图类型，所述意图类型表征了所述初始用户对所述目标媒体信息的感兴趣程度；

基于各所述初始用户的意图类型，对各所述初始用户进行过滤，以基于过滤后的各用户的用户信息对待处理媒体信息的投放策略进行优化，所述待处理媒体信息包括所述目标媒体信息或除所述目标媒体信息之外的其他媒体信息中的至少一项。

2.根据权利要求1所述的方法，其特征在于，所述对于每个所述初始用户，基于所述初始用户的客服咨询数据，确定所述初始用户对应于所述目标媒体信息的意图类型，包括：

提取所述会话数据所包含的各语句的局部会话特征；

将各所述局部会话特征进行拼接，基于拼接后的特征提取所述会话数据对应的全局会话特征；

基于所述全局会话特征，确定所述初始用户对应于所述目标媒体信息的意图类型。

3.根据权利要求2所述的方法，其特征在于，还包括：

基于每个所述语句的局部会话特征，确定各所述语句对应的局部意图类型；

所述基于所述全局会话特征，确定所述初始用户对应于所述目标媒体信息的意图类型，包括：

基于所述全局会话特征，确定所述会话数据对应的全局意图类型；

基于各所述语句对应的局部意图类型和所述全局意图类型，确定所述初始用户对应于所述目标媒体信息的意图类型。

4.根据权利要求1所述的方法，其特征在于，所述从所述初始用户的客服咨询数据中提取所述初始用户的用户信息，包括：

将所述会话数据进行拆分，得到各子会话数据，其中，每个所述子会话数据包括相邻的至少一个客服会话语句和至少一个所述初始用户的用户会话语句；

对于每个所述子会话数据，将所述子会话数据包含的各语句进行拼接，基于拼接后的语句提取所述初始用户的用户信息。

5.根据权利要求1所述的方法，其特征在于，对于每个所述初始用户，所述获取目标媒体信息所对应的各初始用户的客服咨询数据，包括以下至少一项：

获取所述初始用户的至少一种联系方式信息，基于所述初始用户的联系方式信息，利用人工智能AI客服建立与所述初始用户的通信连接，并基于所述目标媒体信息获取所述AI客服与所述初始用户之间的会话数据；

获取人工客服与所述初始用户之间的对应于所述目标媒体信息的会话数据。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述用户信息是通过预训练好的信息抽取模型从所述会话数据中抽取得到的，所述信息抽取模型的训练数据集是通过以下方式获取得到的：

获取多个第一样本会话数据；

对于每一个所述第一样本会话数据，对所述第一样本会话数据进行数据增强处理，得到至少一个第二样本会话数据；

其中，所述训练数据集包括各所述第一样本会话数据和各所述第二样本会话数据。

7.根据权利要求6所述的方法，其特征在于，所述第一样本会话数据包括样本用户信息，所述对所述第一样本会话数据进行数据增强处理，得到至少一个第二样本会话数据，包括以下至少一项：

对所述第一样本会话数据中的样本用户信息所包含的至少一项信息进行替换，得到至少一个第二样本会话数据；

确定所述第一样本会话数据所包含的各语句中与至少一个预设语句语义匹配度最高的目标语句，利用所述预设句子分别替换所述第一样本会话数据中的目标语句，得到至少一个第二样本会话数据。

8.根据权利要求5所述的方法，其特征在于，所述基于所述目标媒体信息获取所述AI客服与所述初始用户之间的会话数据，包括：

基于所述目标媒体信息，通过所述AI客服与所述初始用户进行会话，基于会话中初始用户的用户会话信息确定所述初始用户对应的会话类型；

基于所述初始用户对应的会话类型，通过所述AI客服向所述初始用户提供与所述会话类型对应的客服会话信息；

将所述初始用户对应的用户会话信息和客服会话信息，作为所述AI客服与所述初始用户之间的会话数据。

9.根据权利要求8所述的方法，其特征在于，所述会话类型包括目标类型或非目标类型，所述目标类型表征了所述初始用户对应的会话状态或者所述初始用户对于所述目标媒体信息的感兴趣状态，所述基于所述初始用户对应的会话类型，通过所述AI客服向所述初始用户提供与所述会话类型对应的客服会话信息，包括：

若所述会话类型为所述目标类型，获取所述目标类型对应的客服会话信息，将所述客服会话信息提供给所述初始用户，以获取所述初始用户对于所述客服会话信息的用户会话信息；

若所述会话类型为所述非目标类型，从各候选关键内容中确定出与所述用户会话信息的匹配度最高的候选关键内容，将确定出的候选关键内容所对应的回复语句作为所述客服会话信息，并将所述客服会话信息提供给所述初始用户，以获取所述初始用户对于所述客服会话信息的用户会话信息。

10.根据权利要求1所述的方法，其特征在于，所述用户信息包括用户联系方式信息，所述从所述初始用户的客服咨询数据中提取所述初始用户的用户信息，包括：

从所述初始用户的会话数据中抽取所述用户的初始联系信息；

基于至少一种联系信息类型所对应的校验规则对所述初始联系信息进行校验，基于校验结果确定出所述初始用户的用户联系信息。

11.一种信息处理装置，其特征在于，包括：

会话数据获取模块，用于获取目标媒体信息所对应的各初始用户的客服咨询数据，所述客服咨询数据包括客服与初始用户之间的会话数据；

用户信息提取模块，用于对于每个所述初始用户，从所述初始用户的客服咨询数据中提取所述初始用户的用户信息；

用户意图类型确定模块，用于对于每个所述初始用户，基于所述初始用户的客服咨询数据，确定所述初始用户对应于所述目标媒体信息的意图类型，所述意图类型表征了所述初始用户对所述目标媒体信息的感兴趣程度；

用户过滤模块，用于基于各所述初始用户的意图类型，对各所述初始用户进行过滤，以基于过滤后的各用户的用户信息对待处理媒体信息的投放策略进行优化，所述待处理媒体信息包括所述目标媒体信息或除所述目标媒体信息之外的其他媒体信息中的至少一项。

12.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，其中，所述存储器中存储有计算机程序；所述处理器在运行所述计算机程序时，执行权利要求1~10任一项所述的方法。

13.一种计算机可读存储介质，所述存储介质中存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1~10任一项所述的方法。