CN111353299A

CN111353299A - 基于人工智能的对话场景确定方法和相关装置

Info

Publication number: CN111353299A
Application number: CN202010138744.5A
Authority: CN
Inventors: 张宇楠; 童丽霞; 雷植程; 杨念民
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-06-30
Anticipated expiration: 2040-03-03
Also published as: CN111353299B

Abstract

本申请实施例公开了一种对话场景确定方法及其相关装置，所述方法包括：获取待识别语句；构建包括所述待识别语句和多个待定场景的语义特征向量，所述多个待定场景是根据所述待识别语句确定的；通过对所述语义特征向量中的特征进行交互，生成所述多个待定场景各自对应的场景向量，以及所述待识别语句对应的语句向量；根据所述场景向量与所述语句向量间的关联程度，从所述多个待定场景中确定所述待识别语句对应的目标场景。本申请利用人工智能技术，在多个待定场景之间进行充分交互，使待定场景之间的关联关系成为确定目标场景的影响因素，一定程度上提高了场景确定的准确度和泛化性。

Description

基于人工智能的对话场景确定方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及基于人工智能的对话场景确定方法和相关装置。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的发展，可以实现人工智能与用户进行交互，例如游戏陪伴、智能客服、问答机器人等都是上述人机交互的常见应用方式。

在通过人工智能为用户提供交互类的业务服务的过程中，确定用户语句所对应的场景是首要任务。这里所提及的场景可以理解为用户当前询问、论述所涉及的对象，例如某一产品、功能等。如果能够准确确定用户语句实际所对应的场景，或者说用户的实际需求，可以通过人工智能实现更高效的交互服务。

在一些相关技术中采用基于规则的方法确定用户语句所涉及的场景，主要由人工整理出与目标任务场景高度相关的关键词，并维护与运营这样一份词典，当获取用户语句例如询问时，在关键词词典中进行匹配，然后根据人为设定的一些匹配规则及匹配方式来判断与各个场景的符合程度，最终确定询问所涉及场景。这种方式只能适用特定领域范围，不仅词典维护人工成本高，且不具备泛化性。

发明内容

为了解决上述技术问题，本申请提供了一种对话场景确定方法，通过在待识别语句对应确定的多个待定场景之间以及该待定场景与待识别语句之间进行交互，使生成的多个场景向量以及语句向量能够体现出场景与场景间和语句与场景之间的关联，从而能够一定程度上提高最终目标场景确定的准确度以及泛化性。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供了一种对话场景确定方法，所述方法包括：

获取待识别语句；

构建包括所述待识别语句和多个待定场景的语义特征向量，所述多个待定场景是根据所述待识别语句确定的；

通过对所述语义特征向量中的特征进行交互，生成所述多个待定场景各自对应的场景向量，以及所述待识别语句对应的语句向量；

根据所述场景向量与所述语句向量间的关联程度，从所述多个待定场景中确定所述待识别语句对应的目标场景。

第二方面，本申请实施例提供了一种对话场景确定装置，所述装置包括第一获取单元、构建单元、生成单元、第一确定单元：

所述第一获取单元，用于获取待识别语句；

所述构建单元，用于构建包括所述待识别语句和多个待定场景的语义特征向量，所述多个待定场景是根据所述待识别语句确定的；

所述生成单元，用于通过对所述语义特征向量中的特征进行交互，生成所述多个待定场景各自对应的场景向量，以及所述待识别语句对应的语句向量；

所述第一确定单元，用于根据所述场景向量与所述语句向量间的关联程度，从所述多个待定场景中确定所述待识别语句对应的目标场景。

第三方面，本申请实施例提供了一种用于对话场景确定的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的对话场景确定方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行第一方面所述的对话场景确定方法。

由上述技术方案可以看出，在人机交互过程中可以获取用户对应的待识别语句，由于确定的待定场景和待识别语句本身都对待识别语句的实际场景确定有着直接或间接的影响，故可以根据待识别语句所确定的多个待定场景以及该待识别语句构建语义特征向量，使得待识别语句和待定场景处于一致的语义空间中，通过对语义特征向量中场景与场景、场景与语句之间的特征交互，以此生成的多个待定场景各自对应的场景向量，以及所述待识别语句对应的语句向量，这些向量中包括了在特征交互过程中学习到对确定目标场景有用的信息。根据前述场景向量与语句向量间的关联程度从多个待定场景中确定待识别语句对应的目标场景，该目标场景与待识别语句对应的实际场景一致的可能性较高，提高了场景预测的准确性，而且确定目标场景依靠的是待定场景与待识别语句的语义层面信息，不需要维护规则词典，且能够适用于不同的领域范围，具有高泛化性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种实际应用环境中对话场景确定方法的示意图；

图2为本申请实施例提供的一种对话场景确定方法的流程图；

图3为本申请实施例提供的一种对话场景确定方法的示意图；

图4为本申请实施例提供的一种对话场景确定方法的示意图；

图5为本申请实施例提供的一种对话场景确定方法的示意图；

图6为本申请实施例提供的一种对话场景确定方法的示意图；

图7为本申请实施例提供的一种对话场景确定装置的结构框图；

图8为本申请实施例提供的一种用于对话场景确定的设备的结构图；

图9为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

通过人工智能技术实现用户与人工智能交互是现在较为广泛的人工智能技术的应用方式之一，例如用户与智能客服、游戏玩家与游戏内NPC的交互等等，而能否通过交互内容准确分析出用户所需要的信息是衡量此类交互技术是否成熟的重要标准。其中，根据进行交互用户的用户语句判断该用户语句所对应的场景是常用的技术手段之一。

在一些相关技术中，当用户输入待识别语句时，能够确定出与该待识别语句可能相关的待定场景，用户能够从这些待定场景中，选出自己想要的场景进行后续交互。但是在该相关技术中仅考虑到待识别语句与待定场景之间的关系，并没有考虑到待定场景之间也同样会具有一些关联，因此在确定场景时，仅能够体现出待定场景与待识别语句之间的联系，而无法体现出待定场景之间的关联，对用户需求场景的预测精度较低。

为了解决上述问题，本申请提供了一种对话场景确定方法，通过在待识别语句对应确定的多个待定场景之间以及该待定场景与待识别语句之间进行交互，使生成的多个场景向量以及语句向量能够体现出场景与场景间和语句与场景之间的关联，从而能够一定程度上提高最终目标场景确定的准确度以及泛化性。

可以理解的是，该方法可以通过具有数据处理能力的处理设备执行，处理设备例如可以为搭载有或可调用人工智能技术的终端设备或服务器。该方法可以通过终端设备或服务器独立执行，也可以应用于终端设备和服务器通信的网路场景，通过终端设备和服务器配合执行。其中，终端设备可以为计算机、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑等设备。服务器可以理解为是应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器。同时，在硬件环境上，本技术已经实现的环境有：ARM架构处理器、X86架构处理器；在软件环境上，本技术已经实现的环境有：Android平台、Windows xp及以上操作系统或Linux操作系统。

本申请涉及到人工智能技术的应用，其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景，

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习和自然语言处理等技术，例如需要通过机器学习来进行网络模型训练，通过自然语言处理技术对待识别语句进行识别等，具体通过如下实施例进行说明：

为了便于理解本申请的技术方案，下面将结合实际应用环境，对本申请实施例提供的互动方法进行介绍。

参见图1，图1为本申请实施例提供的对话场景确定方法的应用环境示意图，在该应用环境中，处理设备为服务器101。在进行场景确定时，服务器101首先可以获取待识别语句。在本申请实施例中，对话场景主要应用于处理设备通过人工智能技术与客户进行交互的场景中，例如可以为客户与智能客服进行交流时，智能客服根据客户输入的语句所反馈的场景。

根据该待识别语句，服务器101能够通过多种方式确定出该待识别语句对应的待定场景，例如，在本申请实施例中，服务器101可以确定出该待识别语句能够召回的待定场景。可以理解的是，由于语义的多样性以及召回条件的不同，同一待识别语句可以具有对应于多个场景的可能性。在进行此次场景确定之前，可以通过召回方式得到与待识别语句对应的多个待定场景，召回的这些待定场景与该待识别语句具有对应关系。例如图1所示的应用环境中，服务器101根据待识别语句召回了四个待定场景，分别为待定场景A、B、C、D。

针对召回的多个待定场景，服务器101可以从中确定出待识别语句对应的目标场景，该目标场景是服务器101对待识别语句的实际场景的预测结果。该实际场景可以是用户基于待识别语句实际选择的场景，可以体现出用户基于该待识别语句表达的真实需求。当服务器101预测精度越高，确定的目标场景与待识别语句的实际场景一致的可能性就越大，就可以越好的为用户提供交互服务。

通过研究发现，针对一个语句所召回的多个待定场景间的联系实际上会对用户确定实际场景带来影响。同一个用户在不同场合下发出的同一个待识别语句，有可能会因为前述召回条件等原因导致不同场合所召回的多个待定场景全部或部分不同，例如场合x中，用户a发出的待识别语句b召回了3个待定场景，分别为待定场景1、2、3；场合y中，用户a发出的待识别语句b召回了4个待定场景，分别是待定场景1、3、5、6；针对以上两个场合，由于待定场景的区别，用户a有可能针对同一个待识别语句b确定出了不同的实际场景，例如在场合x中，用户a将待定场景3确定为待识别语句b的实际场景，在场合y中，用户a将待定场景5确定为待识别语句b的实际场景。

由此可见，多个待定场景所体现出的关联会对用户确定实际场景带来直接影响，那么在对实际场景进行预测时，针对任一个待定场景，都不应仅仅基于该待定场景本身的信息来确定其是否为待识别语句的实际场景，而应结合与该待定场景一同召回的其他待定场景的相关信息，从整体层面上进行预测，从而才能提高预测结果(目标场景)的准确性。

此外，不同待定场景与待识别语句之间的关联关系也是确定目标场景的重要考量因素，例如不同待定场景与待识别语句之间的关联方式可能不同，或者不同待定场景之间能够体现出的待识别语句的信息特征可能不同。因此，将待识别语句与待定场景之间进行充分交互，有助于利用待定场景中的信息充实待识别语句，从而使最终确定待识别语句对应的目标场景时更为准确。

基于此，在本实际应用环境中，服务器101在获取待识别语句以及根据待识别语句召回待定场景A、B、C、D后，可以构建包括该待识别语句和多个待定场景的向量，该向量为语义特征向量。如图1所示，通过该语义特征向量，服务器101可以将待识别语句以及多个待定场景映射到同一语义空间中。

为了从多个待定场景中确定出目标场景，服务器101可以判断多个待定场景与待识别语句之间的关联程度，将关联程度最高的一个待定场景确定为目标场景。而通过信息对应的向量之间的关联程度来确定信息之间的关联程度是较为准确的方式之一。在本应用环境中，服务器101能够通过该语义特征向量中的特征进行交互，生成多个待定场景各自对应的场景向量以及待识别语句对应的语句向量。如图1所示，通过特征交互，服务器101生成了待定场景A、B、C、D对应的场景向量A、B、C、D以及待识别语句对应的语句向量。

上已述及，服务器101将待识别语句以及多个待定场景映射到同一语义空间中，因此，在对该语义特征向量中的特征进行交互时，能够使该语义特征向量中的多个待定场景以及待识别语句之间进行充分交互，从而使场景向量A、B、C、D以及语句向量携带有其他特征中与自身对应的特征相关的信息，该信息可以为依据其他特征对自身对应特征进行补充的信息，有利于服务器101确定自身向量对应的场景是否为目标场景。

例如，在本实际应用场合，在场景向量A中，当待定场景A与待定场景B、C、D之间差别较大时，通过特征交互，可以携带有待定场景B、C、D以及待识别语句中与自身相关的信息，如待定场景B、C、D与待定场景A中区别较大的部分信息，这部分信息能够体现出待定场景B、C、D与待定场景A的关联关系，从而有助于服务器101依据场景向量A以及语句向量中的信息，判断待定场景A是否为目标场景。

当服务器101根据场景向量A、B、C、D与语句向量之间的关联程度A、B、C、D，从多个待定场景中确定待识别语句对应的目标场景时，由于场景向量A、B、C、D以及语句向量携带有其他特征中与自身对应的特征相关的信息，因此该场景确定过程不但能够体现出待定场景和待识别语句本身之间的关联程度，还能够体现出其他待定场景对于该关联程度的影响。场景向量与语句向量之间的关联程度能够体现出对应的待定场景与待识别语句之间的相似度，关联程度越高的场景向量，其对应的待定场景与待识别语句实际需求的场景越为接近，从而使服务器101可以从待定场景中确定出待识别语句所需的目标场景。在图1所示的应用环境中，服务器101所确定出的关联程度A、B、C、D中关联程度A最大，因此可以确定关联程度A所对应的待定场景A最为接近待识别语句实际需求的场景，将其确定为目标场景。

接下来，将结合附图，对本申请实施例提供的一种对话场景确定方法进行介绍。

参见图2，图2展示了一种对话场景确定方法的流程图，该方法包括：

S201：获取待识别语句。

当用户需要通过处理设备获取相关信息或进入目标场景时，往往需要向处理设备输入相应的待识别语句，处理设备在获取该待识别语句后，可以对该待识别语句进行识别，确定该待识别语句对应的目标场景。其中，处理设备主要通过以下两种方式对目标场景加以利用：

(1)处理设备可以将确定出的目标场景作为用户最需要的场景推荐给用户。例如，当用户想要了解附近好玩的旅游景点时，可以向处理设备输入“附近的旅游景点”，处理设备可以根据用户输入的待识别语句，向用户推荐多个用户可能感兴趣的旅游景点，并根据用户的个人喜好等信息，分别预测出用户对各个旅游景点的偏好程度，并将偏好程度最高的旅游景点作为目标场景，放在推荐旅游景点的首位发送给用户。

(2)处理设备可以将确定出的目标场景直接作为用户所实际需要的信息对用户输入的待识别语句作出应答，即只向用户返回目标场景，而并不返回其他与待识别语句对应的待定场景。例如，当用户输入的待识别语句为“如何充值”时，处理设备所确定出与待识别语句对应的待定场景可能为“通过支付宝充值的流程”“通过微信充值的流程”、“通过银行卡充值的流程”等。此时，处理设备可以根据相关信息，判断出用户采用支付宝进行充值的可能性最高，因此将“通过支付宝充值的流程”作为目标场景直接返回给用户，而不向用户返回其他方式的充值流程。

S202：构建包括待识别语句和多个待定场景的语义特征向量。

在获取待识别语句之后，服务器可以根据待识别语句所包含的确定关系，例如召回关系等，获取根据该待识别语句确定的多个待定场景。其中，召回是指针对该待识别语句得到有一定关联关系的多个待定场景。

可以理解的是，由于召回条件等原因，同一个用户在不同场合下发出的同一个待识别语句所召回的多个待定场景可能全部或部分不同。例如，当一个用户在清晨发送“附近有什么美食”这一待识别语句时，由于时间属于早饭时间，此时营业的饭店大部分为早餐店，因此处理设备根据该待识别语句所召回的场景可以为各种早餐店的介绍信息等，此时，用户所选择的场景大概率为一家早餐店的相关信息；而当该用户在傍晚发送相同的待识别语句时，由于时间属于晚饭时间，此时早餐店大多已经休息，营业的大多为正餐店，因此处理设备根据待识别语句所召回的可以为各种正餐店的介绍信息，此时用户选择的场景大概率为一家正餐店的相关信息。

由此可见，同一用户所发送的同一待识别语句可能会召回不同的待定场景，且由于待定场景之间关联关系的的不同，用户在最终选择场景时也有所区别。因此，将待定场景之间的关联关系作为确定目标场景时的因素有助于处理设备向用户提供用户所需要的实际场景。例如，当召回的待定场景为多种早餐店信息时，处理设备可以通过分析该待定场景之间的关联关系，确定出用户当前所需要的为早餐店，从而在待定场景中选出用户所常去的早餐店信息作为用户所需要的实际场景提供给用户。

为了能够体现出待定场景之间的关联关系，处理设备可以构建包括待识别语句和多个待定场景的语义特征向量，多个待定场景和待识别语句都为组成该语义特征向量的特征。通过该语义特征向量，可以将多个待定场景和待识别语句放在同一语义空间中，从而在进行特征交互时，能够使多个特征之间进行充分交互。

如图3所示，图3为一种对话场景确定方法的示意图，图中展示了一种用于进行对话场景确定的模型网络结构，处理设备可以利用该模型网络结构，进行目标场景的确认。在输入层中，处理设备首先进行待定场景和待识别语句的嵌入。图3中的scene(场景)1、scene2、scene3和scene4为根据待识别语句召回的四个待定场景形成的场景序列，通过场景嵌入，得到S＝(s₁，s₂，s₃，s₄)，s_i∈R^d为待定场景向量，d为嵌入维度，X＝(w₁,w₂…,w_n)为处理设备基于字嵌入的待识别语句的文本序列，w_i∈R^d为待识别语句中的字向量，n为待识别语句的语句长度，即该语句中所包含的字数。其中，嵌入是指将待定场景或待识别语句等特征添加到语义特征向量这一过程。此外，为了能够在后续处理过程中整体标识待识别语句序列，处理设备还可以在在场景序列及问句文本序列之间额外增加特殊符号<CLS>，作单独的嵌入e_cls∈R^d。

处理设备在图3所示的输入层向量嵌入完成后，可以将待定场景向量和待识别语句的字向量以及特殊符号部分拼接形成语义特征向量I，即I＝(s₁,s₂,s₃,s₄,e_cls,w₁,w₂…,w_n……)，从而将待识别语句和多个待定场景嵌入到同一向量中，使其处于同一语义空间。

S203：通过对语义特征向量中的特征进行交互，生成多个待定场景各自对应的场景向量，以及待识别语句对应的语句向量。

为了在判定待定场景是否为目标场景时添加其他场景的影响因素，处理设备在构建语义特征向量后，需要通过交互等方式，使该语义特征向量中的各个特征里携带有其他特征的相关信息。可以理解的是，本申请并不对进交互的具体方式进行限定。

例如，为了得到具有其他待定场景和待识别语句中信息特点的各个场景向量，在本申请技术方案中，可以利用网络模型(如Transformer模型)，对语义特征向量中的特征进行交互。在该交互过程中，语义特征向量中的待定场景向量和待识别语句向量能够通过模型自动获取对确定目标场景有利的信息，该信息能够基于其他特征信息，对自身特征进行补充和完善，从而能够体现出待定场景之间的关联关系。

通过特征交互，处理设备能够生成待定场景对应的场景向量和待识别语句对应的语句向量，这些向量不但能够体现出自身特点，还能够体现出其他特征向量的整体特点和与自身的联系。

例如，在一种可能的实现方式中，处理设备可以根据语义特征向量，通过网络模型生成多个待定场景各自对应的场景向量以及待识别语句对应的语句向量，该网络模型可以为卷积模型、循环神经网络模型和Transformer模型等。如图3所示，在图3中，网络模型为Transformer模型，处理设备在构建语义特征向量后，可以将该语义特征向量发送至交互层中进行交互。该交互层中含有三层Transformer Block(Transformer结构)，Transformer结构具有能对各要素信息进行充分交互的有点，能够对整个输入信息进行建模交互，让模型自动学习到对目标场景预测有用的特征信息。每一层Transformer结构主要包括多点自我关注(multi-head self-attention)层和正反馈(feedforward)层，其间穿插了残差结构以及层级归一化操作。本模型交互层中堆叠3层标准的Transformer结构，用以一步步建模更抽象的交互特征。

经过了交互层充分的特征交互，处理设备能够获得场景向量s₁,s₂,s₃,s₄以及语句向量e_cls，即图3中所示的scene1、2、3、4和CLS向量。

在该实现方式中，用于实现向量中的特征交互的网络模型可以通过以下方式训练得到：

在人工智能服务的日常应用中，每天都会产生大量的用户历史场景确定信息，处理设备可以获取根据历史场景确定信息得到的训练样本，该训练样本包括历史场景确定信息涉及的历史用户语句、确定的历史待定场景和根据历史待定场景得到的历史确定场景，这些数据能够体现出用户的场景偏好、待识别语句与待定场景之间的关联关系以及数据所属的历史时间段中各个场景的热度等信息。

可以理解的是，由于在本申请技术方案中所针对的为多个待定场景之间的关联关系对最终目标场景确定的影响，而并不是所有的历史用户语句都具有确定的历史待定场景和根据历史待定场景得到的历史确定场景，因此，在一种可能的实现方式中，处理设备可以对获取到的训练样本进行筛选，使筛选后的训练样本中满足历史用户语句具有对应的历史待定场景和历史确定场景。可以通过筛选去除的训练样本包括但不限于以下几种情况：

(1)当输入该历史用户语句的用户是通过一个明确的渠道进行互动时，该用户输入的历史用户语句通常可以直接由处理设备根据该渠道的相关信息确定出一个明确的对应场景，此时就不会存在历史待定场景。例如，当用户在某一游戏软件中，向游戏内的智能客服输入“查询战绩”这一语句，由于处理设备是通过该游戏渠道获取的用户语句，因此可以直接确定用户所需求的战绩为该游戏的战绩，此时处理设备可以直接向用户返回战绩查询界面，用户直接点击该界面即可获取自己想要的信息，而不需要在生成待定场景供用户进行选择。

(2)历史用户语句具有对应的多个历史待定场景，但是输入该历史用户语句的用户在交互过程中同时选择过多个历史待定场景，说明该用户其实并不清楚自己实际想要的目标场景，其最终选择的历史确定场景与历史用户语句之间可能并没有一个准确的对应关系，因此无法将这类历史用户语句作为本申请所需的历史用户语句加以利用。

(3)输入该历史用户语句的用户并未选择其中的任何一个场景，说明该用户所需的信息通过单轮交互即可获取，即处理设备利用人工智能技术，对用户输入的历史用户语句进行分析后，即可直接返回用户所需要的信息，而不需要用户再进行其他的选择操作，此类历史用户语句不存在对应的历史待定场景以及历史确定场景，因此也无法作为本申请所需的历史用户语句加以训练。

在获取训练样本后，处理设备可以将训练样本中的历史用户语句和确定的历史待定场景构建历史语义特征向量。可以理解的是，该历史语义特征向量的构成与上述语义特征向量的构成方法可以相同。

处理设备可以将训练样本中的历史确定场景作为历史语义特征向量的标签，通过历史语义特征向量对网络模型进行训练。通过该模型训练，能够使网络模型学习到多个历史待定场景之间的关联关系对历史确定场景的影响，以及能够学习出历史语义特征向量中的哪些特征信息有助于选择出历史确定场景，从而使该网络模型具有通过交互将有助于确定目标场景的信息添加到场景向量以及语句向量中的能力。

S204：根据场景向量与语句向量间的关联程度，从多个待定场景中确定待识别语句对应的目标场景。

在得到经过充分交互后的语句向量和场景向量后，为了从多个待定场景中确定出待识别语句对应的目标场景，处理设备可以通过判断场景向量与语句向量之间的关联程度，来确定各个待定场景与待识别语句的关联程度。可以理解的是，场景向量与语句向量之间的关联程度越高，说明该场景向量所对应的待定场景越接近于发送该待识别语句的用户想要选择的场景，因此处理设备可以将关联程度最高的场景向量所对应的场景确定为待识别语句对应的目标场景。

其中，确定向量之间关联程度的方法可以有多种，例如计算向量的内积相似度、余弦相似度或更为复杂的多层感知计算等。

在一种可能的实现方式中，处理设备可以通过计算向量余弦(cosine)相似度值的方式，确定向量之间的关联程度。向量之间的余弦相似度值越大，说明向量之间的夹角越小，即两个向量之间的关联程度越高。如图3所示，在通过交互层得到场景向量s₁,s₂,s₃,s₄以及语句向量e_cls后，处理设备将上述向量发送到相似层，将每个场景向量都与语句向量之间进行余弦相似度值计算，然后将得到的四个余弦相似度值发送到输出层。

在输出层，处理设备可以通过对得到的余弦相似度值进行softmax逻辑回归运算，归一化为概率分布形式，然后将相似度值最大的场景向量对应待定场景确定为待识别语句对应的目标场景。

可以理解的是，由于待定场景与目标场景之间以及待定场景之间的关系较为复杂，且随着时间的改变，用户在同一场合中发出的同一待识别语句所对应的实际需求的场景也可能会发生改变，因此通过本申请技术方案确定出的目标场景可能与并与用户实际想要选择的场景并不相同。此时，为了进一步提高场景确定的准确性，处理设备可以根据用户实际选择的场景信息，对网络模型进行实时更新。在一种可能的实现方式中，在确定出目标场景之后，处理设备可以比对被选中场景和目标场景是否一致。其中，被选中场景为基于待识别语句实际选择的场景。

若不一致，说明在场景确定的过程中，用于进行特征交互的网络模型中的参数可能存在一定的误差。此时，处理设备可以将通过被选中场景、待识别语句和多个待定场景生成的训练样本对网络模型进行参数修正。例如，在图3所示的示意图中，当出现不一致的情况时，处理设备可以根据待识别语句和多个待定场景构建训练用的语义特征向量，并输入到图3中的模型进行训练；在输出层得到归一化后的概率分布后，可以将被选中场景的信息引入到输出层中，即图3中的实际选择所展示的情况，其中1对应的为被选中场景，0对应的为未被选中的场景，处理设备可以利用实际选择情况与计算出的预测概率进行修正参数计算。其中，能够计算修正参数的方式有多种，例如，在图3所示的示意图中，可以采用交叉熵损失函数(loss function)计算，通过计算结果对交互层的Transformer模型进行参数修正，从而使Transformer模型能够更加准确的将对确定目标场景有利的信息添加到参与交互的各个特征中，并且能够使Transformer模型更好的适应由于时间的变化所带来的目标场景与待定场景和待识别语句之间对应关系的变化。

可以理解的是，为了避免处理设备在进行上述网络模型的在线学习以及实时更新时，所学习到的新的模式知识过于快速的覆盖掉旧的模式知识，处理设备可以在进行实施更新时使用随机梯度下降优化器，并将批的大小设置为合适值，例如可以设置为64，从而使处理设备能够合理有序的接收用于更新的训练样本信息进行参数更新。其中，模式知识是指网络模型在进行特征交互时所采用的交互方式的具体内容，例如交互次数、交互顺序等信息。

可以理解的是，由于在训练网络模型时所用的训练样本可能不同，训练得到的网络模型也可能有所不同。例如，当用于训练的训练样本多为能够确定五个历史待定场景的历史用户语句时，所训练出的网络模型也为能够针对能够确定五个待定场景的待识别语句进行交互的网络模型。而在场景确定的过程中，由于应用场合的不同，所获取的待识别语句确定的待定场景的数量可能小于训练样本中历史待定场景的数量。

例如，在某一智能游戏客服中，当用户输入待识别语句时，该游戏客服所能够提供的待定场景最多只有四个，而训练样本中的历史待定场景为五个，此时，若仍用四个待定场景以及待识别语句构成语义特征向量进行场景确定，可能会导致该网络模型无法充分对该语义特征向量进行交互。因此，为了进一步提高场景确定的准确性，当待识别语句确定的待定场景的数量小于训练样本中历史待定场景的数量时，处理设备可以在构建语义特征向量时，通过指定标识进行场景补齐，使场景补齐后的语义特征向量中所对应场景数量与训练样本中历史待定场景的数量相同。

例如，在图3所展示的示意图中，当待识别语句召回的待定场景数量只有三个时，即语义特征向量中仅存在S＝(s₁，s₂，s₃)时，由于该场合中的网络模型所针对的为具有四个待定场景的待识别语句，因此为了提高场景确定的准确度，处理设备可以利用指定标识<scene_PAD>将场景补齐到4个，补齐后的场景序列为scene1、scene2、scene3、scene PAD，从而使补齐后的语义特征向量能够满足网络模型的交互需求进行充分交互。

可以理解的是，在部分网络模型中，由于用于补齐的特殊符号中并不具有与确定目标场景相关的信息，因此在交互时可以掩盖掉起补充作用的无效场景。同时，在根据场景向量与语句向量间的关联程度确定目标场景时，由于补充场景所对应的场景向量不具有作为目标场景的功能，因此可以将补充场景进行去除，防止其影响目标场景的确定。

例如，在图3所示的交互层中，Transformer模型在进行特征交互时，可以在注意力计算的过程中，掩盖掉起补充的无效场景<scene_PAD>；此外，在输出层中，在进行softmax逻辑回归运算归一化为概率分布形式的过程中，处理设备可以去掉用以补齐的无效场景<scene_PAD>的概率，从而使概率分布更加准确。

此外，为了能够在场景确定的过程中，更加细致的体现出语义特征向量的各个组成部分，在一种可能的实现方式中，语义特征向量中的特征元素可以具有对应的位置标识和类型标识。其中，位置标识用于体现对应特征元素在语义特征向量中的位置信息，类型标识用于体现对应特征元素的对象类型。

例如，在图3所示的示意图中，为了使Transformer模型能够准确感知语义特征向量中的待定场景部分和待识别语句部分，处理设备可以在语义特征向量中嵌入类型标识<SEG1>、<SEG2>，分别标识待定场景向量和待识别语句的字向量，e_seg1∈R^d，e_se∈R^d；同时，为了提高Transformer模型对语义特征向量的位置信息的敏感程度，从而能够对语义特征向量中的各个特征进行充分交互，处理设备还可以在语义特征向量中嵌入对应各个特征的位置标识<POS>，e_posi∈R^d,i＝1,2,…,n+5。通过类型标识和位置标识的嵌入，Transformer模型既能够清楚的判断出特征类型，又能够确定出进行交互的为哪一个特征，从而保证了每一个特征以及每一个类型的特征之间都能够进行充分交互，使交互得到的场景向量以及语句向量中包含更加充分的信息，有助于提高目标场景确定的准确度。

此外，与提高目标场景确定的准确率有关的特征除了上述提到的待定场景之间的关联以及在线学习之外，还存在其他可能特征。为了进一步提高场景确定的准确率，处理设备还可以进行多特征融合，将这些特征融入到场景确定的过程中。其中，根据特征所针对的对象不同，这些特征可以分为针对用户的用户历史交互信息和针对待定场景的历史场景确定信息，下面分别对这两类信息及其利用方式进行介绍。

1、用户历史交互信息

可以理解的是，用户在选择目标场景时，可能会依据自己的习惯或偏好，从待定场景中进行选择。因此，目标场景的确定在一定程度上能够体现出用户的个性化特点，而该个性化特点通常具有一致性和延续性，即用户的个性化特点不会轻易发生改变，并且能够维持一段时间。由此可见，将用户对应的用户历史信息作为确定该用户输入的待识别语句所对应的目标场景的因素之一，在一定程度上能够提高场景确定的准确度以及个性化。

由于待识别语句由用户进行输入，因此该待识别语句中可以具有对应的目标用户标识。基于此，为了体现出该用户的个性化特点，处理设备可以确定该目标用户标识对应的用户历史交互信息，该用户历史信息包括历史语句和对应的历史确定场景。其中，历史语句是指该目标用户标识对应的用户在过去输入的待识别语句。

为了依据历史交互信息对当前目标场景进行推测，处理设备可以根据用户历史交互信息，确定目标待定场景对应的用户历史特征向量，目标待定场景对应的用户历史特征向量包括历史语义相似度和历史时间信息。其中，目标待定场景为多个待定场景中的任意一个，历史语义相似度用于标识目标历史语句与待识别语句的相似度，历史时间信息用于表示待识别语句与历史语句的时间戳间的差值，目标历史语句为目标待定场景在用户历史交互信息中对应的历史语句。下面分别对历史语义相似度和历史时间信息这两个特征进行介绍：

(1)历史语义相似度

可以理解的是，待识别语句确定的多个待定场景中每一个待定场景都可能在过去被该用户选择过，针对其中的一个目标待定场景，当用户曾经选择过该目标待定场景作为目标场景时，该目标待定场景在用户历史交互信息中对应的历史语句与待识别语句之间可能具有一定的相似度，相似度越大，说明用户在输入该待识别语句时的需求与输入历史语句时的需求相同的概率越高，从而选择同一场景作为目标场景的概率就越高。

因此，处理设备可以通过确定待识别语句确定的每一个待定场景作为目标待定场景时对应的历史语义相似度，进一步判断该目标待定场景是否为该用户输入的待识别语句所实际需求的目标场景。可以理解的是，用户可能选择过同一场景两次或两次以上，因此目标待定场景在历史交互信息中对应的历史语句可能不止一个，此时为了进一步提高场景确定的准确度，处理设备可以分别计算多个目标历史语句与待识别语句之间的相似度，并从中选择最高的一个相似度作为历史语义相似度。

(2)历史时间信息

可以理解的是，由于用户的个性化特点具有一定的延续性，即用户在一定时间段内输入同一待识别语句时，其最终选择目标场景相同的概率较大。可以理解的是，由于输入同一待识别语句的间隔时间越小，用户的个性化特点发生变化的可能性越低，用户选择同一待定场景作为目标场景的可能性就越高。例如，当用户输入的待识别语句为“有什么好看的电影”时，处理设备可以向用户返回多个电影种类信息，如爱情片、动作片、悬疑片等，在某一段时间内，用户可能会更偏向于某一种类的电影，如当用户有了一段新的恋爱感情时，在近期就可能偏向于观看爱情片，因此当用户在短时间内选择过爱情片时，在下一次观看电影时选择爱情片的概率较大。因此，针对一个目标待定场景，当目标历史语句与待识别语句的时间戳间的差值越小时，用户选择与该目标待定场景的概率越高。基于此，处理设备可以将历史时间信息也作为确定该目标待定场景是否为目标场景的确定依据之一。

因此，处理设备可以通过对语义特征向量中的特征进行交互，得到多个待定场景各自对应的初始场景向量，该初始出场景向量是指在此次场景确定中依据待识别语句所确定的待定场景以及待识别语句本身之间进行特征交互所产生的场景向量，能够体现出此次场景确定中各个待定场景之间以及待定场景与待识别语句之间的关联关系。为了将用户历史交互信息用于进一步准确地进行场景确定，处理设备可以根据多个待定场景各自对应的用户历史特征向量和初始场景向量，生成多个待定场景各自对应的场景向量。可以理解的是，通过用户历史特征向量和初始想来那个生成场景向量的方式可以有多种，在本申请实施例中，处理设备可以通过将目标待定场景对应的初始场景向量与用户历史特征向量进行拼接，生成目标待定场景对应的场景向量。

除了上述两个特征之外，用户历史交互信息中还可能包括如下特征：

(3)历史场景数量

此外，可以理解的是，针对目标待定场景，用户选择过同一场景作为目标场景的次数越多，说明用户对于该场景的偏好程度越高，当在根据待识别语句所确定的待定场景中出现该目标待定场景时，用户选择该目标待定场景作为目标场景的可能性就越高。例如，当待识别语句为“附近有什么美食”时，在根据该待识别语句确定的多个餐饮信息中，用户选择次数较多的某一餐饮信息可能较为符合用户的口味，因此当出现相同的餐饮信息时，用户选择该餐饮信息的可能性较高。因此，在一种可能的实现方式中，处理设备可以将历史场景数量作为目标待定场景对应的用户历史特征向量之一，该历史场景数量用于表示在用户历史交互信息中目标待定场景的数量。

(4)历史场景进入方式

目标待定场景对应的历史场景进入方式也同样可以作为用户历史特征向量之一，该历史场景进入方式用于表示在用户历史交互信息中目标场景被确定为历史确定场景的方式。在不同场合下，用户确定同一场景为历史确定场景的方式可能不同。

在一些场合中，可能需要通过用户点击的方式才能够将目标场景确定为历史确定场景。例如，当用户输入的待识别语句为“附近的旅游景点”时，处理设备可以向用户返回多个待定的旅游景点，此时，用户需要点击其中自己最感兴趣的一个旅游景点才能看到该景点对应的相关信息，在用户点击后，才能够将该旅游景点确定为历史确定场景。

在其他场合中，还可以通过渠道的方式，将目标场景直接确定为历史确定场景，不需要用户进行点击。例如，当用户通过某一游戏向只能客服输入“如何办理会员”这一待识别语句时，处理设备可能根据该待识别语句能够确定多个办理不同会员的方式作为待定场景。此时，由于用户是通过游戏这一渠道发送的待识别语句，因此，处理设备可以直接将该办理该游戏会员的方式作为目标场景，并单独将该目标场景返回给用户。由于用户只能够获取到该目标场景的信息，因此不需要用户进行点击，即可将该目标场景确定为历史确定场景。

处理设备可以通过以上多种与用户历史交互信息相关的特征，构建多个待定场景对应的用户历史特征向量。如图4所示，图4为确定用户历史交互信息以及根据该用户历史交互信息确定历史特征向量的示意图。处理设备在获取待识别语句后，首先根据待识别语句中包含的目标用户标识以及根据待识别语句确定的待定场景，获取该目标用户标识对应的历史语句、历史确定场景、历史语句时间戳和历史场景进入方式信息。由于图中每一个待定场景都具有多组对应的用户历史交互信息，为了找到与待定场景最为相似的一组用户历史交互信息，处理设备可以通过计算余弦相似度等方式，先分别计算出各用户历史交互信息中历史语句与待识别语句之间的历史语义相似度，并选取相似度较高的一组用户历史交互信息进行特征计算。

其中，在进行历史时间信息特征计算的过程中，为了方便进行后续特征交互，处理设备可以对待识别语句与历史语句的时间戳间的差值进行归一化处理，1标识待识别语句时间戳30天前的时间，0表示待识别语句的时间戳对应的时间。在进行历史进入方式特征计算时，由于多数情况下只存在渠道进入和点击两种方式，因此可以通过独热编码来表示，[1,0]代表通过点击进入的历史场景，[0,1]代表通过渠道进入的历史场景。历史场景数量可以通过待定场景所对应的用户历史交互信息中目标待定场景的数量来确定，由图可知，待定场景1对应的历史场景数量为2，待定场景2对应的历史场景数量为3。经过上述特征计算后，处理设备可以得到待定场景1对应的用户历史特征向量1和待定场景2对应的用户历史特征向量2。设用户历史特征向量为f₁，则待定场景1对应的f₁向量为f₁＝(0.93 0.17 2 01)，待定场景2对应的f₁向量为f₁＝(0.83 0.08 3 1 0)。

2、历史场景确定信息

可以理解的是，随着时间的推移，针对同一待识别语句，多个用户所实际选择的多个场景可能存在一定的选择规律，该规律可以被时间因素所影响。例如，当待识别语句为“怎么更新不了”时，用户实际选择的场景大概率与在输入该待识别语句时间点附近更新的一款产品有关。在历史时间段A中，更新的为产品A，此时用户所点击的场景多数为产品A的相关场景；在历史时间段B中，更新的为产品B，此时用户所点击的场景多数为产品B的相关场景。由此可见，随着时间的推移，不同场景的点击分布也发生了变化。

同时，通过对场景确定相关的信息进行数据挖掘可以发现，在较细粒度的时间(如每6小时)上看，这些变化几乎是连续的，因此同一场景在历史时间段中的变化趋势也具有一定的规律，这就使得根据历史场景确定信息去帮助预测当前的场景确定这一方法是有效可行的。基于此，在一种可能的实现方式中，处理设备可以获取历史场景确定信息，该历史确定信息包括历史时间段中历史语句、确定的历史待定场景和根据历史待定场景得到的历史确定场景。可以理解的是，为了提高历史场景确定信息的有效性，处理设备可以获取60小时内的历史场景确定信息，并以6个小时为单位对历史场景确定信息进行分组处理。

处理设备可以根据历史场景确定信息，确定多个待定场景各自对应的场景历史特征向量。其中，目标待定场景对应的场景历史特征向量包括目标待定场景在历史场景确定信息中的时序确定分布特征，以及时序确定差分特征。下面分别对时序确定分布特征和时序确定差分特征进行介绍。

(1)时序确定分布特征

时序确定分布特征用于标识目标待定场景作为历史确定场景在历史时间段的分布特点，该分布特点可以为目标待定场景作为历史确定场景在历史时间段中各个时间点被选择的次数等信息。通过该时序确定分布特征，能够体现出该目标待定场景作为历史确定场景时在历史时间段中的分布特点。

为了能够较为准确的获取该目标待定场景对应的时序确定分布特征，在一种可能的实现方式中，处理设备可以将历史时间段分为多个时间单元，根据历史场景确定信息，确定目标待定场景作为历史确定场景在多个时间单元内的分布数据，然后根据多个时间单元内的分布数据，确定目标待定场景作为历史确定场景在所述历史时间段的分布特点。例如，处理设备可以将获取待识别语句的前60小时作为历史时间段，将6小时作为一个时间单元进行分布特点确定。

(2)时序确定差分特征

时序确定差分特征用于标识目标待定场景作为历史确定场景在历史时间段的变化趋势，该变化趋势可以为在历史时间段中的相邻时间点中目标待定场景作为历史确定场景被选择的次数差等信息。例如，当历史时间段为上述提及的前60小时，相邻时间点可以为间隔6小时的时间点，处理设备可以获取相邻六小时之间的次数差来确定时序确定差分特征。

在获取历史场景确定信息后，为了体现出历史场景确定信息对于场景确定的影响，处理设备可以将该历史场景确定信息融入到待定场景对应的场景向量中用于进行与语句向量关联程度的判断。在一种可能的实现方式中，处理设备可以通过对语义特征向量中的信息进行交互，得到多个待定场景各自对应的初始场景向量，并根据多个待定场景各自对应的场景历史特征向量和初始场景向量，生成多个待定场景各自对应的场景向量，从而在进行场景向量与语句向量关联程度的判断时，不仅能够体现出待识别语句所对应的待定场景之间以及待定场景与待识别语句之间的关联关系，还能够体现出各个待定场景在历史时间段中的分布规律和变化趋势，从而进一步提高了场景确定的准确度。可以理解的是，该场景向量的生成方法也可以包含多种，在本申请实施例中，处理设备可以将目标待定场景对应的初始场景向量与场景历史特征向量进行拼接，生成目标待定场景对应的场景向量。

此外，可以理解的是，上述历史时间段越接近与获取待识别语句的时刻，其体现出的相关特征也就越接近于待识别语句当前确定出的待确定场景的实际特征。因此，在一种可能的实现方式中，历史时间段可以是根据获取待识别语句的时刻进行回溯确定的，例如，处理设备可以将获取待识别语句时刻的前60小时作为历史时间段。

如图5所示，图5为一种获取历史场景确定信息并确定场景历史特征向量的示意图。针对待识别语句和目标待定场景，处理设备可以获取60小时内的全部历史场景确定信息。可以理解的是，为了提高历史场景确定信息的有效性，处理设备可以先对历史场景确定信息进行筛选，去除掉与确定该目标待定场景是否为目标场景无关的历史场景确定信息，例如，可以先计算全部历史场景确定信息中历史语句与待识别语句的历史语义相似度，并根据整体历史语义相似度的数值情况确定一个相似度阈值，从而筛选出于待识别语句较为接近的历史场景确定信息。同时，由于需要获取的为目标待定场景在历史场景确定信息中的分布情况，因此，可以进一步将确定的历史待定场景中不存在目标待定场景的历史场景确定信息去除。

在对历史场景确定信息进行筛选后，处理设备可以统计60小时内符合条件的历史场景确定信息中目标待定场景的被选择情况。此时，为了体现出该目标待定场景时序确定分布特征以及时序确定差分特征，处理设备可以将60小时的历史场景确定信息按照6小时一组进行分组，统计出的结果如图5所示，在前6小时中，目标待定场景作为历史确定场景被选择的占比为0.4；在前6-12小时内的占比为0.3；在前12-18小时内的占比为0.5……，由此确定出时序确定分布特征为(0.4 0,3 0,5……)。在统计出每个历史时间段的占比后，处理设备可以计算出每6小时进行变化的时序确定差分特征，及按历史时间段由后到前的顺序逐一做差，得到的时序确定差分特征为(0.1-0.2……)，通过时序确定分布特征和时序确定差分特征进行组合，即可得到该目标待定场景对应的场景历史特征向量。设场景历史特征向量为f₂，则该待定场景做为目标待定场景时对应的f₂向量为f₂＝(0.4 0.3 0.5……0.1-0.2……)。

可以理解的是，用户历史交互信息和历史场景确定信息不仅能够单独作为提高场景确定准确率的特征，还可以在一次场景确定中同时作为特征加入运算。

如图6所示，图6为一种场景历史特征向量和用户历史特征向量的应用示意图。图6所示的结构在图3的基础上增加了融合层，在融合层中，经过交互层特征交互生成的初始场景向量可以与其待定场景所对应的向量f₁，f₂进行拼接，形成最终的场景向量s₁,s₂,s₃,s₄。处理设备通过确定最终场景向量s₁,s₂,s₃,s₄与语句向量e_cls的余弦相似度得到各个待定场景与待识别语句之间的关联程度，由于在场景向量中拼接了用户历史特征向量和场景历史特征向量，因此得到的场景向量在体现出各个待定场景之间关联关系的基础上，还能够体现出输入该待识别语句的用户的个性化特点以及各待定场景所对应的整体历史信息，进一步提高了场景确定的准确度。

可以理解的是，f₁，f₂向量是用户历史特征向量和场景历史特征向量的表示符号，每一个待定场景多对应的f₁，f₂向量都可以是不同的。

此外，为了验证该对话场景确定方法的准确度和有效性，本申请还根据历史场景确定信息获取了6天的测试样本，评测指标为针对同一待识别语句，通过该对话场景确定方法确定出的目标场景与用户实际选择的场景是否相同。该验证实验将分别在相关技术中对话场景确定方法的基础上，逐步增加上述与待定场景之间关联关系相关的技术手段、与多特征融合相关的技术手段和与在线学习相关的技术手段，从而能够验证这三个技术手段对相关技术中对话场景确定方法带来的提高。

同时，为了更好评估待定场景之间关联关系相关的技术手段，增加普遍的分类模型实验，将该分类模型命名为原始确定法。该分类模型不考虑待定场景之间的关联关系以及特征交互，仅是将待识别语句通过神经网络建模直接分类到某个场景，为了增加可比性，上述方法中都采用3层Transformer结构来建模网络模型。

表中的分类模型法是指相关技术中的对话场景确定方法，该方法仅对进行了特征交互，并没有在特征交互中考虑待定场景之间的关联关系以及用户和场景的历史确定信息，并且也不具有在线学习的功能。

首先统计测试样本在原始确定法下以及分类模型法中的场景确定的准确率，即确定的场景中排在第一的场景是否就是用户选择的场景，代表相关技术中对话场景确定方法的指标，而后列出采用本申请技术方案进行各个实验得到的准确率。以日期为单位，实验结果如下表所示。

其中，在线学习指对当天的测试样本进行场景确定时，将预测完的样本实时加入网络模型中进行训练，并继续进行后续样本的预测，最终计算得到准确率指标。

由上表可验证出，本申请技术方案在具体的业务应用下能有效提高场景确定的准确率，其中技术方案的各个部分均发挥了作用。综合的准确率相对于原始确定法能提升4～5％，相对于相关技术中的对话场景确定方法能够提升1％。

接下来，将结合一种实际应用环境，对本申请实施例提供的一种对话场景确定方法进行介绍。在该应用环境中，用户输入的待识别语句为“为我推荐附近的美食”，处理设备为用户设备对应的服务器。

在该实际应用环境中，通过该待识别语句，能够确定四个待定场景，分别为“附近美食1”、“附近美食2”、“附近美食3”和“附近美食4”。服务器在获取该待识别语句及其确定的待定场景后，构建语义特征向量，然后通过Transformer模型对该语义特征向量中的特征进行充分交互，生成4个初始场景向量和语句向量。

为了提高场景确定的准确度，服务器可以根据待识别语句中的用户标识，获取该用户标识对应的前60小时的用户历史交互信息，并根据该用户历史交互信息生成用户历史特征向量。该用户历史特征向量中包括用户在前60小时种输入的历史语句与待识别语句之间的相似度、与待识别语句之间的时间差值以及该用户在前60小时中所选择的各个待定场景的次数。服务器所生成的各个待定场景所对应的用户历史特征向量分别为：

附近美食1：f₁＝(0.73 0.17 3)

附近美食2：f₁＝(0.21 0.56 1)

附近美食3：f₁＝(0.46 0.28 2)

附近美食4：f₁＝(0.73 0.17 3)

服务器将初始场景向量与其对应的用户历史特征向量进行融合，得到最终的4个待定场景所对应的场景向量，然后分别计算各个场景向量与语句向量之间的余弦相似度，将余弦相似度最高的一个场景向量所对应的待定场景作为目标场景推荐给用户。在本实际应用环境中，所确定出的待定场景为“附近美食2”，服务器可以将四个待定场景都返回给用户，并将“附近美食2”标记为推荐程度最高的美食。

基于上述实施例提供的对话场景确定方法，本申请实施例还提供一种对话场景确定装置700，参见图7，装置700包括第一获取单元701、构建单元702、生成单元703、第一确定单元704：

第一获取单元701，用于获取待识别语句；

构建单元702，用于构建包括待识别语句和多个待定场景的语义特征向量，多个待定场景是根据待识别语句确定的；

生成单元703，用于通过对语义特征向量中的特征进行交互，生成多个待定场景各自对应的场景向量，以及待识别语句对应的语句向量；

第一确定单元704，用于根据场景向量与语句向量间的关联程度，从多个待定场景中确定待识别语句对应的目标场景。

在一种可能的实现方式中，待识别语句具有对应的目标用户标识，目标待定场景为多个待定场景中的任意一个，生成单元703具体用于：

通过对语义特征向量中的信息进行交互，得到多个待定场景各自对应的初始场景向量；

根据多个待定场景各自对应的用户历史特征向量和初始场景向量，生成多个待定场景各自对应的场景向量；用户历史特征向量是根据目标用户标识所确定的用户历史交互信息确定的。

在一种可能的实现方式中，目标待定场景为多个待定场景中的任意一个，目标待定场景对应的场景向量通过如下方式生成：

将目标待定场景对应的初始场景向量与用户历史特征向量进行拼接，生成目标待定场景对应的场景向量。

在一种可能的实现方式中，目标待定场景为多个待定场景中的任意一个，目标待定场景对应的用户历史特征向量通过下述方式确定：

确定目标用户标识对应的用户历史交互信息，用户历史交互信息包括历史语句和对应的历史确定场景；

根据用户历史交互信息，确定目标待定场景对应的用户历史特征向量；

其中，目标待定场景对应的用户历史特征向量包括历史语义相似度和历史时间信息；历史语义相似度用于标识目标历史语句与待识别语句的相似度，历史时间信息用于表示待识别语句与目标历史语句的时间差值；目标历史语句为目标待定场景在用户历史交互信息中对应的历史语句。

在一种可能的实现方式中，目标待定场景对应的用户历史特征向量还包括历史场景进入方式和历史场景数量，历史场景进入方式用于标识在述用户历史交互信息中目标待定场景被确定为历史确定场景的方式，历史场景数量用于标识在用户历史交互信息中目标待定场景的数量。

在一种可能的实现方式中，生成单元703具体用于：

根据多个待定场景各自对应的场景历史特征向量和初始场景向量，生成多个待定场景各自对应的场景向量；场景历史特征向量为通过历史时间段中的历史场景确定信息所确定的，历史场景确定信息包括历史语句、确定的历史待定场景和历史确定场景。

将目标待定场景对应的初始场景向量与场景历史特征向量进行拼接，生成目标待定场景对应的场景向量。

在一种可能的实现方式中，目标待定场景为多个待定场景中的任意一个，目标待定场景对应的场景历史特征向量通过下述方式确定：

根据历史场景确定信息，确定目标待定场景对应的场景历史特征向量；

其中，目标待定场景对应的场景历史特征向量包括目标待定场景的时序确定分布特征，以及时序确定差分特征；时序确定分布特征用于标识目标待定场景作为历史确定场景历史确定场景在历史时间段的分布特点，时序确定差分特征用于标识目标待定场景作为历史确定场景在历史时间段的变化趋势。

在一种可能的实现方式中，时序确定分布特征通过如下方式确定：

将历史时间段分为多个时间单元；

根据历史场景确定信息，确定目标待定场景作为历史确定场景在多个时间单元内的分布数据；

根据多个时间单元内的分布数据，确定目标待定场景作为历史确定场景在历史时间段的分布特点。

在一种可能的实现方式中，历史时间段是根据获取待识别语句的时刻进行回溯确定的。

在一种可能的实现方式中，生成单元703具体用于：

根据语义特征向量，通过网络模型生成多个待定场景各自对应的场景向量，以及待识别语句对应的语句向量；

其中，网络模型通过如下方式训练得到：

获取根据历史场景确定信息得到的训练样本，训练样本包括历史场景确定信息涉及的历史用户语句、确定的历史待定场景和根据历史待定场景得到的已确定场景；

将训练样本中的历史用户语句和确定的历史待定场景构建历史语义特征向量；

将训练样本中的已确定场景作为历史语义特征向量的标签，通过历史语义特征向量对网络模型进行训练。

在一种可能的实现方式中，装置700还包括比对单元705和修正单元706：

比对单元705，用于比对被选中场景和目标场景是否一致，被选中场景为基于待识别语句实际选择的场景；

修正单元706，用于若不一致，将通过被选中场景、待识别语句和多个待定场景生成的训练样本对网络模型进行参数修正。

本申请实施例还提供了一种用于对话场景确定的设备，下面结合附图对该设备进行介绍。请参见图8所示，本申请实施例提供了一种设备800，该设备800还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8，手机包括：射频(Radio Frequency，简称RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity，简称WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器880可包括一个或多个处理单元；优选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，优选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器880还具有以下功能：

获取待识别语句；

本申请实施例还提供一种服务器，请参见图9所示，图9为本申请实施例提供的服务器900的结构图，服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于图9所提供的服务器结构。

该本申请实施例提供的一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的对话场景确定方法中的任意一种实施方式。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种对话场景确定方法，其特征在于，所述方法包括：

获取待识别语句；

2.根据权利要求1所述的方法，其特征在于，所述待识别语句具有对应的目标用户标识，所述通过对所述语义特征向量中的特征进行交互，生成所述多个待定场景各自对应的场景向量，包括：

通过对所述语义特征向量中的信息进行交互，得到所述多个待定场景各自对应的初始场景向量；

根据所述多个待定场景各自对应的用户历史特征向量和初始场景向量，生成所述多个待定场景各自对应的场景向量；所述用户历史特征向量是根据所述目标用户标识所确定的用户历史交互信息确定的。

3.根据权利要求2所述的方法，其特征在于，目标待定场景为所述多个待定场景中的任意一个，所述目标待定场景对应的场景向量通过如下方式生成：

将所述目标待定场景对应的初始场景向量与所述用户历史特征向量进行拼接，生成所述目标待定场景对应的场景向量。

4.根据权利要求2所述的方法，其特征在于，目标待定场景为所述多个待定场景中的任意一个，所述目标待定场景对应的用户历史特征向量通过下述方式确定：

确定所述目标用户标识对应的用户历史交互信息，所述用户历史交互信息包括历史语句和对应的历史确定场景；

根据所述用户历史交互信息，确定所述目标待定场景对应的用户历史特征向量；

其中，所述目标待定场景对应的用户历史特征向量包括历史语义相似度和历史时间信息；所述历史语义相似度用于标识目标历史语句与所述待识别语句的相似度，所述历史时间信息用于表示所述待识别语句与所述目标历史语句的时间差值；所述目标历史语句为所述目标待定场景在所述用户历史交互信息中对应的历史语句。

5.根据权利要求4所述的方法，其特征在于，所述目标待定场景对应的用户历史特征向量还包括历史场景进入方式和历史场景数量，所述历史场景进入方式用于标识在所述述用户历史交互信息中所述目标待定场景被确定为历史确定场景的方式，所述历史场景数量用于标识在所述用户历史交互信息中所述目标待定场景的数量。

6.根据权利要求1所述的方法，其特征在于，所述通过对所述语义特征向量中的信息进行交互，生成所述多个待定场景各自对应的场景向量，包括：

根据所述多个待定场景各自对应的场景历史特征向量和初始场景向量，生成所述多个待定场景各自对应的场景向量；所述场景历史特征向量为通过历史时间段中的历史场景确定信息所确定的，所述历史场景确定信息包括历史语句、确定的历史待定场景和历史确定场景。

7.根据权利要求6所述的方法，其特征在于，目标待定场景为所述多个待定场景中的任意一个，所述目标待定场景对应的场景向量通过如下方式生成：

将所述目标待定场景对应的初始场景向量与所述场景历史特征向量进行拼接，生成所述目标待定场景对应的场景向量。

8.根据权利要求6所述的方法，其特征在于，目标待定场景为所述多个待定场景中的任意一个，所述目标待定场景对应的场景历史特征向量通过下述方式确定：

根据所述历史场景确定信息，确定所述目标待定场景对应的场景历史特征向量；

其中，所述目标待定场景对应的场景历史特征向量包括所述目标待定场景的时序确定分布特征，以及时序确定差分特征；所述时序确定分布特征用于标识所述目标待定场景作为历史确定场景历史确定场景在所述历史时间段的分布特点，所述时序确定差分特征用于标识所述目标待定场景作为历史确定场景在所述历史时间段的变化趋势。

9.根据权利要求8所述的方法，其特征在于，所述时序确定分布特征通过如下方式确定：

将所述历史时间段分为多个时间单元；

根据所述历史场景确定信息，确定所述目标待定场景作为历史确定场景在所述多个时间单元内的分布数据；

根据所述多个时间单元内的分布数据，确定所述目标待定场景作为历史确定场景在所述历史时间段的分布特点。

10.根据权利要求6所述的方法，其特征在于，所述历史时间段是根据获取所述待识别语句的时刻进行回溯确定的。

11.根据权利要求1所述的方法，其特征在于，所述通过对所述语义特征向量中的信息进行交互，生成所述多个待定场景各自对应的场景向量，以及所述待识别语句对应的语句向量，包括：

根据所述语义特征向量，通过网络模型生成所述多个待定场景各自对应的场景向量，以及所述待识别语句对应的语句向量；

其中，所述网络模型通过如下方式训练得到：

获取根据历史场景确定信息得到的训练样本，所述训练样本包括所述历史场景确定信息涉及的历史用户语句、确定的历史待定场景和根据所述历史待定场景得到的已确定场景；

将所述训练样本中的历史用户语句和确定的历史待定场景构建历史语义特征向量；

将所述训练样本中的已确定场景作为所述历史语义特征向量的标签，通过所述历史语义特征向量对所述网络模型进行训练。

12.根据权利要求5所述的方法，其特征在于，在所述根据所述场景向量与所述语句向量间的关联程度，从所述多个待定场景中确定所述待识别语句对应的目标场景之后，所述方法还包括：

比对被选中场景和所述目标场景是否一致，所述被选中场景为基于所述待识别语句实际选择的场景；

若不一致，将通过所述被选中场景、所述待识别语句和所述多个待定场景生成的训练样本对所述网络模型进行参数修正。

13.一种对话场景确定装置，其特征在于，所述装置包括第一获取单元、构建单元、生成单元、第一确定单元：

所述第一获取单元，用于获取待识别语句；

14.一种用于对话场景确定的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-8中任意一项所述的对话场景确定方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-8中任意一项所述的对话场景确定方法。