CN114118451A

CN114118451A - 智能交互模型的训练方法、交互方法、装置及设备

Info

Publication number: CN114118451A
Application number: CN202111447279.4A
Authority: CN
Inventors: 袁梦菲
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-01

Abstract

本申请公开了一种智能交互模型的训练方法、交互方法、装置及设备，该训练方法获取包括多个第一输入语句的第一输入信息，将第一输入语句输入到智能交互模型中，通过各个子交互模型对第一输入语句进行交互预测，得到多个初始输出语句，并通过中控子模型根据第一输入语句从多个初始输出语句选择对应的目标输出语句，对若干组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分；并根据匹配评分确定奖励值，通过奖励值对中控子模型进行强化学习训练，得到训练好的智能交互模型。该训练方法可以提高智能交互模型处理多轮交互任务的性能，有利于改善用户体验。本申请可广泛应用于人机交互技术领域内。

Description

智能交互模型的训练方法、交互方法、装置及设备

技术领域

本申请涉及人机交互技术领域，尤其是一种智能交互模型的训练方法、交互方法、装置及设备。

背景技术

近年来，随着人工智能技术的飞速发展，各种类型的机器学习模型在图像分类、人脸识别、自动驾驶等领域均取得了较为良好的应用效果。其中，在人机交互领域，可以通过人工智能技术搭建智能交互模型，基于人机对话实现相关的信息收集和任务处理。

相关技术中，基于智能交互模型和用户进行交互时，交互的效果主要依赖智能交互模型的训练效果。但由于训练数据的丰度、交互规则策略的设定等存在一定局限性，当交互的轮次较多时，经常出现上下文连贯性差、对话质量低等问题，导致交互效果较差，影响用户的使用体验。

综上，相关技术存在的问题亟需得到解决。

发明内容

本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。

为此，本申请实施例的一个目的在于提供一种智能交互模型的训练方法，该方法能够有效提高训练得到的智能交互模型处理多轮交互任务时的性能，有利于改善智能交互模型投入运行时的用户体验。

为了达到上述技术目的，本申请实施例所采取的技术方案包括：

一方面，本申请实施例提供了一种智能交互模型的训练方法，所述智能交互模型包括中控子模型和多个训练好的不同的子交互模型；所述训练方法包括：

获取第一输入信息，所述第一输入信息中包括多个第一输入语句；

将所述第一输入语句输入到所述智能交互模型中，通过各个所述子交互模型对所述第一输入语句进行交互预测，得到多个初始输出语句，并通过所述中控子模型根据所述第一输入语句确定目标子交互模型，将所述目标子交互模型输出的初始输出语句确定为所述第一输入语句对应的目标输出语句；

响应于匹配指令，对若干组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分；所述匹配指令用于指引进行内容匹配分析或者场景匹配分析中的至少一种；

根据所述匹配评分确定奖励值，通过所述奖励值对所述中控子模型进行强化学习训练，得到训练好的智能交互模型；所述匹配评分和所述奖励值的大小正相关。

另外，根据本申请上述实施例的一种智能交互模型的训练方法，还可以具有以下附加的技术特征：

进一步地，在本申请的一个实施例中，所述将所述第一输入语句输入到所述智能交互模型中，通过各个所述子交互模型对所述第一输入语句进行交互预测，包括：

将本轮次交互的第一输入语句输入到所述智能交互模型中，根据本轮次交互所处的交互轮次确定历史交互信息；所述历史交互信息包括本轮次交互之前的预设轮次的第一输入语句和目标输出语句；

根据所述历史交互信息，通过各个所述子交互模型对所述本轮次交互的第一输入语句进行交互预测。

进一步地，在本申请的一个实施例中，所述对若干组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，包括：

确定每组所述第一输入语句和所述第一输入语句对应的目标输出语句所处的交互轮次；

根据预设的匹配轮次，选取多组所述交互轮次靠后的所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析。

进一步地，在本申请的一个实施例中，所述对若干组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分，包括：

对每组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到初始评分；

根据每组所述第一输入语句和所述第一输入语句对应的目标输出语句所处的交互轮次，对所述初始评分进行加权，得到所述匹配评分；其中，每组所述第一输入语句和所述第一输入语句对应的目标输出语句的初始评分的加权权重和所述交互轮次的大小正相关。

进一步地，在本申请的一个实施例中，所述对每组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到初始评分，包括：

提取所述目标输出语句的第一特征信息；

根据所述第一特征信息进行语义分析，得到所述目标输出语句的文本检测结果；所述文本检测结果用于表征所述目标输出语句中的文本内容是否属于预定格式的自然语言；

根据所述文本检测结果确定所述初始评分。

获取所述第一输入语句对应的标准交互语句；

提取所述目标输出语句的第一特征信息，提取所述标准交互语句的第二特征信息；

确定所述第一特征信息和所述第二特征信息之间的相似度；

根据所述相似度确定所述初始评分；所述初始评分和所述相似度的大小正相关。

进一步地，在本申请的一个实施例中，所述第一输入语句带有场景标签；所述对每组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到初始评分，包括：

提取所述目标输出语句的第一特征信息；

根据所述第一特征信息进行场景分析，得到所述目标输出语句的场景检测结果；所述场景检测结果用于表征所述目标输出语句所属的预设场景类别；

根据所述场景检测结果和场景标签确定所述初始评分。

进一步地，在本申请的一个实施例中，所述根据所述第一特征信息进行场景分析，得到所述目标输出语句的场景检测结果，包括：

将所述第一特征信息输入到意图分析模型，得到所述意图分析模型输出的意图预测结果；所述意图预测结果用于表征子交互模型对所述第一输入语句的交互动作类别，所述交互动作类别至少包括提问和答复；

根据所述意图预测结果确定场景检测结果。

进一步地，在本申请的一个实施例中，所述第一输入语句带有标签，所述子交互模型通过和所述标签对应的训练数据集训练得到；

所述对若干组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分，包括：

根据所述第一输入语句对应的目标输出语句，确定所述中控子模型根据所述第一输入语句确定的目标子交互模型；

根据所述目标子交互模型和所述第一输入语句的标签的匹配关系，确定所述匹配评分。

进一步地，在本申请的一个实施例中，对若干组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分，包括：

对多组所述第一输入语句和所述第一输入语句对应的目标输出语句进行内容匹配分析，得到第一评分；

对多组所述第一输入语句和所述第一输入语句对应的目标输出语句进行场景匹配分析，得到第二评分；

对所述第一评分和所述第二评分进行加权，得到所述匹配评分。

另一方面，本申请实施例提供了一种交互方法，所述方法包括以下步骤：

采集语音数据；

对所述语音数据的文本内容进行语音识别，得到第三输入信息；

将所述第三输入信息输入到上述的智能交互模型的训练方法训练得到的智能交互模型中，得到所述智能交互模型输出的目标输出语句；

将所述目标输出语句转换为音频数据输出。

另一方面，本申请实施例提供一种智能交互模型的训练装置，所述智能交互模型包括中控子模型和多个训练好的不同的子交互模型；所述训练装置包括：

获取模块，用于获取第一输入信息，所述第一输入信息中包括多个第一输入语句；

预测模块，用于将所述第一输入语句输入到所述智能交互模型中，通过各个所述子交互模型对所述第一输入语句进行交互预测，得到多个初始输出语句，并通过所述中控子模型根据所述第一输入语句确定目标子交互模型，将所述目标子交互模型输出的初始输出语句确定为所述第一输入语句对应的目标输出语句；

评分模块，用于响应于匹配指令，对若干组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分；所述匹配指令用于指引进行内容匹配分析或者场景匹配分析中的至少一种；

更新模块，用于根据所述匹配评分确定奖励值，通过所述奖励值对所述中控子模型进行强化学习训练，得到训练好的智能交互模型；所述匹配评分和所述奖励值正相关。

另一方面，本申请实施例提供了一种计算机设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的智能交互模型的训练方法或者交互方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，上述处理器可执行的程序在由处理器执行时用于实现上述的智能交互模型的训练方法或者交互方法。

本申请的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到：

本申请实施例所公开的一种智能交互模型的训练方法，应用于包括中控子模型和多个子交互模型的智能交互模型，该方法获取包括多个第一输入语句的第一输入信息，将第一输入语句输入到智能交互模型中，通过各个子交互模型对第一输入语句进行交互预测，得到多个初始输出语句，并通过中控子模型根据第一输入语句从多个初始输出语句选择对应的目标输出语句，从而得到多轮交互的交互内容；接着，对若干组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分；并根据匹配评分确定奖励值，通过奖励值对中控子模型进行强化学习训练，得到训练好的智能交互模型。该方法通过对多轮交互的交互内容进行内容或者场景层面上的分析，根据分析结果对中控子模型进行强化学习训练，可以有效改善中控子模型从多个初始输出语句中准确选择合适的目标输出语句的性能，进而提高智能交互模型处理多轮交互任务的性能，将训练好的智能交互模型投入运行时，可有效改善用户体验。

附图说明

为了更清楚地说明本申请实施例或者现有技术中的技术方案，下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本申请实施例中提供的一种智能交互模型的训练方法的实施环境示意图；

图2为本申请实施例中提供的一种智能交互模型的交互原理示意图；

图3为本申请实施例中提供的一种智能交互模型的训练方法的流程示意图；

图4为本申请实施例中提供的一种智能交互模型的训练方法中确定强化学习奖励的示意图；

图5为本申请实施例中提供的图3中步骤120的一种具体流程示意图；

图6为本申请实施例中提供的图3中步骤130的一种具体流程示意图；

图7为本申请实施例中提供的图3中步骤130的另一种具体流程示意图；

图8为本申请实施例中提供的一种智能交互模型的训练方法中内容匹配分析的示意图；

图9为本申请实施例中提供的一种智能交互模型的训练方法中场景匹配分析的示意图；

图10为本申请实施例中提供的一种交互方法的流程示意图；

图11为本申请实施例中提供的一种智能交互模型的训练装置的结构示意图；

图12为本申请实施例中提供的一种计算机设备的结构示意图。

具体实施方式

下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)自然语言处理(Nature Language processing，NLP)，是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，自然语言处理是一门融语言学、计算机科学、数学于一体的科学。这一领域涉及的自然语言即人们日常使用的语言，所以它与语言学的研究也有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

3)机器学习(Machine Learning，ML)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，它专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，机器学习(深度学习)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

4)强化学习(Reinforcement Learning，RL)：又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

5)区块链(Blockchain)，是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

6)交互式人工智能(Conversational AI，CoAI)是指通过对话、交互体现出来的智能行为，通常智能系统通过与用户或环境进行交互，并在交互中实现学习与建模。主要包括但不限于以下几个方面的研究：泛问答系统，包括自动问答、阅读理解等；任务或目标型的对话系统；开放领域的闲聊系统。其中，泛问答系统旨在从结构化(如知识库、表格)、非结构化(如文档)寻找精确信息回答用户提问；任务或目标型的对话系统，需要通过交互实现一个特定的任务或目标，如各种智能助理、订票、订餐系统等；开放领域的闲聊系统，侧重于和用户闲聊、情感交流与陪护，是社交机器人走进千家万户的重要基础和前提。这些交互式系统不仅仅以自然语言为载体，更是综合应用图像、语音等多媒体信息，使机器能够理解自身所处的环境，表现出符合情境的智能行为。

近年来，随着人工智能技术的飞速发展，各种类型的机器学习模型在图像分类、人脸识别、自动驾驶等领域均取得了较为良好的应用效果。其中，在人机交互领域，可以通过人工智能技术搭建智能交互模型，基于人机对话实现相关的信息收集和任务处理，该技术被称为交互式人工智能(Conversational AI，CoAI)。

相关技术中，在基于交互式人工智能实现人机交互时，搭建的智能交互模型在处理单轮次的对话时表现尚可，例如从结构化(如知识库、表格)、非结构化(如文档)寻找精确信息回答用户提问的泛问答系统，能够比较轻松地从海量信息中确认出用户需要的内容。但是，当面临多轮对话的任务需求时，智能交互模型的表现往往达不到预期，一方面由于多轮对话任务的数据处理量较多，对智能交互模型的训练较为困难；另一方面，当下业界较多的智能交互模型依赖基于规则的对话策略，在多轮对话时规则的叠加、判断将变得极为复杂，智能交互模型的学习能力和可拓展性比较差。以上的这些因素，导致智能交互模型处理交互的轮次较多时，经常出现上下文连贯性差、对话质量低等问题，对于任务或目标型的对话系统以及开放领域的闲聊系统应用具有十分不利的影响，交互效果较差，用户的体验不好。

为了解决相关技术中的智能交互模型在交互的轮次较多时，经常出现上下文连贯性差、对话质量低等情况，导致交互效果较差，影响用户的使用体验的问题，本申请实施例提供了一种智能交互模型的训练方法、交互方法、装置及设备，该训练方法应用于包括中控子模型和多个子交互模型的智能交互模型，通过获取包括多个第一输入语句的第一输入信息，将第一输入语句输入到智能交互模型中，通过各个子交互模型对第一输入语句进行交互预测，得到多个初始输出语句，并通过中控子模型根据第一输入语句从多个初始输出语句选择对应的目标输出语句，从而得到多轮交互的交互内容；接着，对若干组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分；并根据匹配评分确定奖励值，通过奖励值对中控子模型进行强化学习训练，得到训练好的智能交互模型。该训练方法通过对多轮交互的交互内容进行内容或者场景层面上的分析，根据分析结果对中控子模型进行强化学习训练，可以有效改善中控子模型从多个初始输出语句中准确选择合适的目标输出语句的性能，进而提高智能交互模型处理多轮交互任务的性能，将训练好的智能交互模型投入运行时，可有效改善用户体验。

图1是本申请实施例提供的一种智能交互模型的训练方法的实施环境示意图。参照图1，该实施环境的软硬件主体主要包括操作终端101和服务器102，操作终端101与服务器102通信连接。其中，该智能交互模型的训练方法可以单独配置于操作终端101执行，也可以单独配置于服务器102执行，或者基于操作终端101与服务器102二者之间的交互来执行，具体可以根据实际应用情况进行适当的选择，本实施例对此并不作具体限定。此外，操作终端101与服务器102可以为区块链中的节点，本实施例对此并不作具体限定。

具体地，本申请中的操作终端101可以包括但不限于智能手表、智能手机、电脑、个人数字助理(Personal Digital Assistant，PDA)、智能语音交互设备、智能家电或者车载终端中的任意一种或者多种。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。操作终端101与服务器102之间可以通过无线网络或有线网络建立通信连接，该无线网络或有线网络使用标准通信技术和/或协议，网络可以设置为因特网，也可以是其它任何网络，例如包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

在对本申请实施例中提供的智能交互模型的训练方法进行说明之前，首先对本申请中的智能交互模型的组成结构和应用原理进行介绍。

请参照图2，图2是本申请中的智能交互模型的交互原理示意图，具体地，该智能交互模型包括有中控子模型和多个不同的子交互模型，图2中示出的智能交互模型包括有三个子交互模型，分别为子交互模型A、子交互模型B和子交互模型C，实际的智能交互模型中，子交互模型的个数可以是任意大于或者等于2的整数。在智能交互模型中，各个子交互模型用于对输入信息进行交互预测，得到每个子交互模型对应给出的交互信息。一般来说，交互过程主要以语句对话的形式完成，即输入信息中可以包括有多个语句，对于每个输入的语句来说，各个子交互模型均可以给出对应的交互语句。例如图2中，输入信息按照交互的顺序，依次包括有语句S1、语句S2和语句S3，子交互模型A、子交互模型B和子交互模型C分别针对这些输入的语句给出了对应的交互内容，其中，子交互模型A对于语句S1的交互内容为语句A1，对于语句S2的交互内容为语句A2，对于语句S3的交互内容为语句A3，子交互模型B和子交互模型C类似，在此不再赘述。中控子模型用于根据输入信息中的语句，从各个子交互模型A、子交互模型B和子交互模型C给出的交互内容中选择合适的语句，作为智能交互模型对于输入信息的交互输出。比如说，图2中，对于输入信息中的语句S1，中控子模型选择了子交互模型B输出的语句B1，对于输入信息中的语句S2，中控子模型选择了子交互模型C输出的语句C2，对于输入信息中的语句S3，中控子模型选择了子交互模型A输出的语句A3作为交互内容，从而可以形成“语句S1-语句B1-语句S2-语句C2-语句S3-语句A3”的多轮连续对话。

以上是对本申请中智能交互模型的组成结构和应用原理进行的简要说明，在该智能交互模型中，中控子模型和各个子交互模型均可以基于人工智能领域内的机器学习算法搭建，本申请中对中控子模型和各个子交互模型所选用的机器学习模型结构不作限定。

需要说明的是，为了良好地模拟正常的交互过程，本申请中的中控子模型在选择输入语句对应的子交互模型的输出语句时，可以综合之前的交互内容确定输出语句。例如，图2中，对于输入的语句S2来说，中控子模型可以同时考虑语句S2之前的对话“语句S1-语句B1”，再结合语句S2的内容，从而确定出输出语句。当然，为了减轻数据处理的压力，可以设定中控子模型基于当前输入语句和之前的若干轮次的交互内容，确定本次的输出语句，具体的轮次可以根据需要灵活设定。

需要说明的是，本申请实施例中的智能交互模型中的各个组成部分，既可以集成设置在一处，也可以采用分布式布局，例如智能交互模型中的子交互模型可以为区块链中的节点，本实施例对此并不作具体限定。

图3是本申请实施例提供的一种智能交互模型的训练方法的流程图，该方法的执行主体可以是操作终端或者服务器中的至少一者，图3中以该智能交互模型的训练方法配置于操作终端执行为例进行说明。参照图3，该智能交互模型的训练方法包括但不限于步骤110至步骤140。

步骤110：获取第一输入信息，第一输入信息中包括多个第一输入语句。

本步骤中，在对智能交互模型的中控子模型进行训练时，获取用于输入到智能交互模型中的训练数据，记为第一输入信息。第一输入信息中包括有多个语句，记为第一输入语句。本申请中，对获取第一输入信息的来源渠道不作限定，例如在一些实施例中，第一输入信息可以是从相关的资源服务器中下载得到的，也可以是通过硬件端口传输得到的，或者是通过语音采集及识别设备从环境中获取得到的。

需要说明的是，本申请中的第一输入信息中，各个第一输入语句在语义逻辑上是间隔的，即第一输入信息中的各个第一输入语句之间可以插入有其他的交互内容。并且，在一些实施例中，各个第一输入语句在语义逻辑上可以存在时序顺序，并且可以事先按照该时序顺序依次排列。作为一种可选的构建第一输入信息的方式，可以从正常的对话内容中截取某位参与者的发言记录，从而整理得到第一输入信息。

需要说明的是，本申请中获取第一输入信息时，既可以是预先一次性获取的，也可以是结合后续的步骤120的目标输出语句每次获取一次第一输入语句。换句话说，在一些实施例中，可以采用事先设定好的训练数据对中控子模型进行训练，该训练数据即为包含有多个第一输入语句的第一输入信息，其中，每个第一输入语句均是设定好的，不因智能交互模型给出的对每个第一输入语句的目标输出语句而变化，这种训练方式对于训练数据的获取流程比较友好，能够显著提高模型的训练效率。在另一些实施例中，在对中控子模型进行训练时，每个交互轮次中，获取的第一输入语句可以是根据智能交互模型给出的对前个第一输入语句的目标输出语句确定的，即第一输入语句并非是事先设定好的，而是根据交互过程中的内容需要选择的，这种训练方式虽然一定程度上增加了训练数据的处理复杂度，但却更能贴切地持续模拟整个交互的过程，训练数据中的第一输入语句不会大幅偏离交互主题，可以有效提高训练的稳定性。

步骤120：将第一输入语句输入到智能交互模型中，通过各个子交互模型对第一输入语句进行交互预测，得到多个初始输出语句，并通过中控子模型根据第一输入语句确定目标子交互模型，并将目标子交互模型输出的初始输出语句确定为第一输入语句对应的目标输出语句。

本步骤中，将第一输入信息中的第一输入语句输入到智能交互模型中进行交互预测。智能交互模型接收到的输入的第一输入语句后，可以通过其中的各个子交互模型分别对第一输入语句进行交互预测，得到每个子交互模型对应的初始输出语句。接着，智能交互模型通过中控子模型根据第一输入语句确定目标子交互模型，并将目标子交互模型输出的初始输出语句，作为从这些初始输出语句选择的第一输入语句对应的目标输出语句，然后将目标输出语句作为智能交互模型对第一输入语句的交互输出。

需要说明的是，由于第一输入信息中包括有多个第一输入语句，故而针对第一输入信息来说，前述的步骤120可以多次执行。即对于第一输入信息中每个输入语句来说，都可以执行一次步骤120，从而得到第一输入信息中各个第一输入语句对应的目标输出语句。当然，在一些实施例中，预先一次性获取的第一输入信息，也可以从中挑选部分第一输入语句执行步骤120，具体的挑选方式可以按照语句的个数或者在第一输入信息中的占比来确定。需要注意的是，在挑选部分第一输入语句参与训练时，一般可以保持各个第一输入语句的原有语序，以使得智能交互模型可以更好地根据输入的第一输入语句生成连续多轮的交互内容。

需要说明的是，中控子模型根据第一输入语句确定目标子交互模型时，可以事先对每个子交互模型进行序号编码，进而可以从中控子模型输出的编码数据确定出对应的目标子交互模型。在一些实施例中，例如，第一输入语句可以被处理为特征信息输入到中控子模型，中控子模型对特征信息进行计算或者映射处理，可以输出一组向量，用以表征中控子模型根据第一输入语句确定的目标子交互模型。以图2中的智能交互模型为例，比如说针对语句S1输出的是向量(0，1，0)，即代表中控子模型将第二个子交互模型，即子交互模型B确定为语句S1的目标子交互模型，从而可以将语句B1确定为语句S1对应的目标输出语句；当然，中控子模型输出的数据格式可以根据需要灵活设定，本申请对此不作限制。

步骤130：响应于匹配指令，对若干组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分；匹配指令用于指引进行内容匹配分析或者场景匹配分析中的至少一种。

本步骤中，如前述的，通过智能交互模型对第一输入信息中的多个第一输入语句进行交互预测后，可以得到各个第一输入语句对应的目标输出语句。此时，每个第一输入语句和第一输入语句对应的目标输出语句可以组成一轮交互内容，本申请中，可以对得到的多组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析，也即对得到的多轮交互内容进行匹配分析，得到匹配评分。具体地，在确定匹配评分时，对于一轮的交互内容，即每个第一输入语句和第一输入语句对应的目标输出语句来说，可以先对它们进行匹配分析，得到该轮交互内容对应的初始评分，然后对多轮交互内容各自对应的初始评分进行加权，从而得到在多轮交互内容整体上评价的匹配评分。

需要说明的是，本申请中，可以响应于匹配指令对第一输入语句和目标输出语句进行匹配分析，匹配指令可以是用户在智能交互模型训练前实现设定好的，也可以是临时输出的。匹配指令可以用于指引对第一输入语句和目标输出语句单独进行内容匹配分析或者单独进行场景匹配分析，也可以用于指引对第一输入语句和目标输出语句进行内容匹配分析和场景匹配分析。换句话说，在对第一输入语句和第一输入语句对应的目标输出语句进行匹配分析时，在一些实施例中，可以单独选择对第一输入语句和目标输出语句进行内容匹配分析，确定两者在内容层面是否不对应的情况，如果存在，则可以将匹配评分确定为较低的数值；反之，如果不存在，则可以将匹配评分确定为较高的数值。在一些实施例中，可以单独选择对第一输入语句和目标输出语句进行场景匹配分析，确定两者的交互语境是否不匹配的情况，类似地，如果存在，则可以将匹配评分确定为较低的数值；反之，如果不存在，则可以将匹配评分确定为较高的数值。在一些实施例中，也可以对第一输入语句和目标输出语句分别进行内容匹配分析和场景匹配分析，然后根据两个方面匹配的情况确定匹配评分。

步骤140：根据匹配评分确定奖励值，通过奖励值对中控子模型进行强化学习训练，得到训练好的智能交互模型。

本步骤中，前述步骤130中确定的匹配评分，可以用于量化表示智能交互模型的多轮交互能力强弱，换句话说，匹配评分可以反映出智能交互模型面对复杂的交互需求时，实现有效交互的连贯性和稳定性，匹配评分越高，说明智能交互模型可以在多轮交互中表现越好，反之，匹配评分越低，说明智能交互模型可以在多轮交互中表现越差。而结合前述图2以及对本申请智能交互模型的交互原理的说明可以了解到，该智能交互模型的性能主要取决于各个子交互模型和中控子模型的性能，更深入地，取决于各个子交互模型的交互预测性能以及中控子模型从多个初始输出语句准确选择合适的目标输出语句的性能。对于前者，各个子交互模型的交互预测性能和其模型本身的结构和训练方式相关，本申请对此不作探讨；而中控子模型从多个初始输出语句准确选择合适的目标输出语句的性能则正是本申请提出的智能交互模型的训练方法所主要关注解决的问题，即本申请中可以通过对中控子模型的训练，改善其从多个初始输出语句准确选择合适的目标输出语句的性能，进而提高智能交互模型处理多轮交互任务的性能。

具体地，本步骤中，可以基于强化学习对中控子模型进行训练。强化学习的基本原理是如果智能体(agent，即本申请中的中控子模型)的某个行为策略导致环境产生正的奖赏(强化信号)，那么智能体以后产生这个行为策略的趋势便会加强。强化学习的目标是在每个离散状态下，发现最优策略以使期望的折扣奖赏和最大。该算法把学习看作试探评价过程，进行一个动作作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给智能体，智能体根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。对于本申请来说，中控子模型每选择出多个第一输入语句对应的目标输出语句，相当于执行了一个对环境的动作，而对若干组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析得到的匹配评分，则可以认为相当于环境反馈的强化信号，如果当次的匹配评分变大，说明中控子模型当前选择的目标输出语句更好；如果当次的匹配评分变小，说明中控子模型当前选择的目标输出语句更差。因此，可以根据匹配评分确定出环境反馈的强化信号，也即强化学习的奖励值，奖励值的大小应当和匹配评分的大小正相关。

基于上述原理，参照图4，本申请中，可以循环执行中控子模型根据第一输入语句从多个初始输出语句选择对应的目标输出语句，以及对若干组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析得到匹配评分的过程，例如，图4中，对于输入信息中的第一输入语句S1，对应的目标输出语句为语句B1，对于输入信息中的第一输入语句S2，对应的目标输出语句为语句C2，对于输入信息中的第一输入语句S3，对应的目标输出语句为语句A3。那么，可以分别对第一轮的交互内容、第二轮的交互内容和第三轮的交互内容分别进行评分，得到三轮交互的评分后加权确定总的匹配评分，进而根据匹配评分确定出强化学习的奖励值，并基于该奖励值训练中控子模型。使得中控子模型能够有效学习并向选择输出更合适的目标输出语句的方向更新自身的参数，从而得到训练好的中控子模型，搭配已训练好的各个子交互模型，即可得到训练好的智能交互模型。

需要说明的是，本申请实施例中，每一轮的交互内容并不总以第一输入语句作为开头，可以根据需要灵活选取，例如在图4中，语句B1和语句S2本身也存在上下文关系，也可以单独将其二者作为一轮的交互内容，后续的交互内容则可以依次类推选取。

在前述的实施例中，主要对本申请的智能交互模型的中控子模型的训练过程进行了说明，其中默认了在该过程中，智能交互模型的各个子交互模型均为训练好的子交互模型。此处，训练好的子交互模型可以是从其他交互模型中获取的，也可以是自行训练得到的。本申请实施例中，子交互模型可以对第一输入语句进行交互预测，得到多个初始输出语句，对于子交互模型的类型不作具体限制，例如，在一些实施例中，子交互模型可以是检索类型的模型，其预先设定有语句库，对于输入的第一输入语句，子交互模型可以根据由第一输入语句得到的特征信息，通过计算或者映射得到可以表征语句库中某个语句的输出结果，进而根据该输出结果即可将语句库对应的语句确定为初始输出语句；在一些实施例中，子交互模型也可以是生成类型的模型，例如采用编码器-解码器结构的Seq2Seq模型，对于输入的第一输入语句，可以首先将第一输入语句转换为序列数据，模型中的编码器可以任意长度的序列数据编码到一个向量中，解码器则可以根据该向量自动生成一个对应的上下文向量，并解码输出为序列数据，根据解码器输出的序列数据可进一步转换得到模型输出的文本内容，即子交互模型输出的初始输出语句。

在一些实施例中，对于智能交互模型的训练过程，也可以包括有对子交互模型的训练，故而本申请中的方法还可以包括但不限于步骤150至步骤180：

步骤150：获取第二输入信息，第二输入信息中包括多个第二输入语句和第二输入语句对应的标签；标签包括内容标签或者场景标签中的至少一种；

步骤160：将第二输入语句输入到子交互模型中，通过子交互模型对第二输入语句进行交互预测，得到预测输出语句；

步骤170：根据预测输出语句和标签，确定训练的损失值；

步骤180：根据损失值对子交互模型进行训练，得到训练好的子交互模型。

本申请实施例中，对于智能交互模型中的各个子交互模型，可以采用常用的机器学习算法搭建，并对它们进行基于监督学习的训练。此处，可以通过带有标签的训练数据集对其进行训练，训练数据集中的训练数据也可以是语句等信息，例如，获取用于训练子交互模型的信息，记为第二输入信息，第二输入信息中同样可以包括多个输入语句，各个输入语句记为第二输入语句。对于每个第二输入语句来说，其可以携带有标签，该标签可以是内容标签或者场景标签中的至少一种，其中，内容标签可以是用于表征针对第二输入语句，子交互模型需要进行交互预测输出的内容，内容标签具体的形式在此不作限定。在一些实施例中，内容标签中可以包括有多个合适的可选语句，或者内容标签也可以包括用于限定子交互模型需要进行交互预测输出的某个(或者多个)关键词等。类似地，场景标签可以是用于表征针对第二输入语句，子交互模型需要进行交互预测时输出内容的语境场景，比如说，该场景标签为“答复场景”时，子交互模型输出的语句内容所处的语境应当是答复的场景，如果此时子交互模型输出的语句内容所处的语境为提问场景(比如子交互模型输出的语句是一句问句)，则说明子交互模型的交互预测在语境场景层面存在待改进的地方，可以通过对模型参数的调整来改善该问题。

本申请中，在子交互模型训练过程中，可以将第二输入语句输入到初始化后的子交互模型，在一些实施例中，若第二输入语句的数据格式是文本格式，在输入到模型前可以对其进行编码转换，将非结构化的文本数据转换为模型易于处理的结构化数据。例如，可以将第二输入语句进行分词处理，得到组成该语句的词组，此处，可以采用的分词算法有多种，例如在一些实施例中，可以采用基于词典的分词算法，先把语句按照词典切分成词，再寻找词的最佳组合方式；在一些实施例中，也可以采用基于字的分词算法，先把语句分成一个个字，再将字组合成词，寻找最优的组合方式。将语句进行分词处理后，可以通过预先建立的词典来确定词组中每个词对应的词嵌入向量，当然，在一些实施例中，词嵌入向量可以通过将词映射到一个具有统一的较低维度的向量空间中得到，生成这种映射的策略包括神经网络、单词共生矩阵的降维、概率模型以及可解释的知识库方法等。以词嵌入向量作为对词编码得到的结构化数据为例，在得到第二输入语句中每个词对应的词嵌入向量后，可以对这些词嵌入向量进行累加，累加后的向量可以记为词组向量，对词组向量进行归一化处理，即可得到的第二输入语句对应的向量，比如说归一化处理时，可以设定语句对应的向量中元素和为1。

对于输入到子交互模型中的第二输入语句数据，可以提取其特征信息，并根据特征信息进行交互预测，得到子交互模型输出的预测输出语句，得到预测输出语句后，可以根据该预测输出语句和前述的标签评估机器学习模型预测的准确性，以对模型进行反向传播训练，更新其内部的相关参数。具体地，对于机器学习模型来说，它预测的准确性可以通过损失函数(Loss Function)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(Cost Function)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说，基于前述的代价函数，再加上衡量模型复杂度的正则项即可作为训练的目标函数，基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多，例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数，在此不再一一阐述。本申请实施例中，可以从中任选一种损失函数来确定训练的损失值，也即预测输出语句和标签之间的损失值。基于训练的损失值，采用反向传播算法对模型的参数进行更新，迭代预设的轮次即可得到训练好的子交互模型。

需要说明的是，上述的子交互模型的训练过程，仅用于对智能交互模型中的子交互模型一种可选的实现方案进行举例，并不意味着对其具体的训练方式进行限定。可以理解的是，本申请中智能交互模型的各个子交互模型，可以是采用不同的训练方式训练得到的，并且模型本身的结构、训练算法以及训练数据集均可以存在不同，例如，在一些实施例中，各个子交互模型可以按照功能需求进行搭建和训练，比如说智能交互模型中，其中的一个(或者多个)子交互模型可以是专门针对答复场景下的需求训练得到的，另一个(或者多个)子交互模型可以是专门针对提问场景下的需求训练得到的。如此，一方面能够使单个的子交互模型专注于特定的任务需求，大大减轻其自身的训练难度，且提高智能交互模型对各类交互内容、场景的适应性；另一方面，可以减少智能交互模型中子交互模型的功能重合度，降低不必要的资源浪费，而且还可以将子交互模型功能模块化，方便智能交互模型的搭建和拆分。

参照图5所示，本申请的一个实施例，对步骤120进行进一步的说明，步骤120可以包括但不限于步骤121和步骤122：

步骤121：将本轮次交互的第一输入语句输入到智能交互模型中，根据本轮次交互所处的交互轮次确定历史交互信息；历史交互信息包括本轮次交互之前的预设轮次的第一输入语句和目标输出语句；

步骤122：根据历史交互信息，通过各个子交互模型对本轮次交互的第一输入语句进行交互预测。

本申请实施例中，为了良好地模拟正常的交互过程，子交互模型在根据第一输入语句进行交互预测输出初始输出语句时，也可以综合之前的交互内容确定。具体地，此时，对于每轮的交互过程来说，将本轮次交互时的第一输入语句输入到智能交互模型中，模型可以获取本轮次交互之前的历史交互信息，历史交互信息可以包括本轮次交互之前若干轮次的第一输入语句和这些第一输入语句已确定的目标输出语句。此处，历史交互信息中选定的若干轮次可以是预设轮次，如果当前交互的总轮次没有超过预设轮次时，则取当前全部的交互内容作为历史交互信息。举例来说，比如当前智能交互模型和用户处于第11轮交互，前面已经完成了10次用户输入第一输入语句，智能交互模型给出该第一输入语句对应的目标输出语句的过程。那么，假设预设轮次为5，则在第11轮交互的过程中，用户输入第一输入语句后，智能交互模型首先确定本轮次交互的轮次为11，接着根据预设轮次确定历史交互信息，即可以确定到历史交互信息包括智能交互模型和用户在第6轮交互至第10轮交互过程中的全部内容。由此，智能交互模型可以将历史交互信息作为一部分参考数据，通过各个子交互模型对本次第11轮交互的第一输入语句进行交互预测，从而确定地11轮各自需要输出的初始输出语句。

需要说明的是，本申请中，对于历史交互信息在交互预测过程中的数据应用方式不作限制，在一些实施例中，可以提取这些历史交互信息的特征信息，将这些特征信息和本轮次交互的第一输入语句的特征信息一同输入到子交互模型中进行交互预测；在一些实施例中，也可以在输入子交互模型之前，根据提取历史交互信息得到的特征信息对本轮次交互的第一输入语句的特征信息进行融合处理，得到融合后的特征信息，进而将融合后的特征信息输入到子交互模型中进行交互预测，具体的特征信息的融合方式可以包括数据拼接、数据加权等。

可以理解的是，本申请中，在每轮的交互过程中，子交互模型不仅可以根据本轮次的第一输入语句进行交互预测，还可以结合本轮次之前的若干轮次的历史交互信息作为参考，从而能够有效衔接交互过程中的上下文信息，可以提高多轮交互的连贯性和流畅度。同时，为了减轻数据处理的压力，本申请中可以设定预设轮次的参数，防止在交互轮次过多时出现子交互模型需要处理大量冗余数据的情况，提高资源利用率和数据处理效率。具体地，对于预设轮次的实际设定值，本申请不作限制，可以根据实际的需要灵活设定。

参照图6所示，本申请的一个实施例，对步骤130进行进一步的说明，步骤130可以包括但不限于步骤131和步骤132：

步骤131：确定每组第一输入语句和第一输入语句对应的目标输出语句所处的交互轮次；

步骤132：根据预设的匹配轮次，选取多组交互轮次靠后的第一输入语句和第一输入语句对应的目标输出语句进行匹配分析。

本申请实施例中，结合前述对图5的分析和阐述可以得知，本申请中的各个子交互模型在交互预测初始输出语句时，不仅根据本轮次的第一输入语句进行交互预测，还可以结合本轮次之前的若干轮次的历史交互信息作为参考。那么，可以理解的是，进一步由中控子模型选择出的目标初始语句，同样也是综合了历史交互信息得出的输出。本申请的步骤130中，负责对得到的多轮交互内容进行匹配分析，得到匹配评分，从而量化智能交互模型的多轮交互能力。智能交互模型的多轮交互能力，主要体现在交互的连贯性和稳定性上，在确定匹配评分时，为了降低数据处理的复杂度和处理量，可以从全部的交互轮次中挑选出部分交互轮次的交互内容，判断这些交互内容的匹配评分作为全局的匹配评分。

可以理解的是，对于整体的交互内容，靠后的交互轮次更能体现出智能交互模型对于多轮交互任务的处理性能，故而本申请中，在确定匹配评分时，可以首先从全部的交互内容挑选出参与评估的部分内容，即可以确定每组对应的第一输入语句和目标输出语句所处的交互轮次，然后根据预先设定的需要参与匹配的交互轮次个数(记为匹配轮次)，选取多组交互轮次靠后的第一输入语句和目标输出语句进行匹配分析。举例来说，比如说某次训练过程中，一共对智能交互模型进行了20轮的交互模拟，即向智能交互模型依次输入了20个第一输入语句，模型分别针对每个第一输入语句，输出了20个目标输出语句，其中，第一个输入的第一输入语句和对应其的目标输出语句所处的交互轮次为第1轮，最后一个输入的第一输入语句和对应其的目标输出语句所处的交互轮次为第20轮。假设预先设定的匹配轮次为10轮，则可以选取交互轮次处于第11轮至第20轮的交互内容作为评估内容，对这些交互轮次中的第一输入语句和目标输出语句进行匹配分析。如此，既能减少计算资源的消耗，又能较为准确地评估出智能交互模型处理多轮交互的性能。

参照图7所示，本申请的一个实施例，对步骤130进行进一步的说明，步骤130还可以进一步包括但不限于步骤133和步骤134：

步骤133：对每组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析，得到初始评分；

步骤134：根据每组第一输入语句和第一输入语句对应的目标输出语句所处的交互轮次，对初始评分进行加权，得到匹配评分；其中，每组第一输入语句和第一输入语句对应的目标输出语句的初始评分的加权权重和交互轮次的大小正相关。

本申请实施例中，结合前述对图6的分析和阐述可以得知，在确定匹配评分时，可以首先从全部的交互内容挑选出参与评估的部分内容，例如选取多组交互轮次靠后的第一输入语句和目标输出语句进行匹配分析。在具体匹配分析时，按照对应的交互轮次，对每组第一输入语句和目标输出语句进行匹配分析，可以得到该组交互内容对应的初始评分，然后，基于各组的第一输入语句和目标输出语句对应的初始评分，可以确定挑选出的评估内容整体的匹配评分。例如，在一些实施例中，可以对各组的第一输入语句和目标输出语句对应的初始评分求均值，将求得的均值作为匹配评分。这种求取匹配评分的方式，参考各个轮次的交互内容的权重是一致的，但是一般来说，由于交互的持续进行，越靠后的交互轮次，智能交互模型需要综合考虑的信息、交互的衔接性等需求就越复杂，给出良好目标输出语句的难度就越大。因此，为了更好地确定智能交互模型处理多轮交互的能力，应当侧重考虑交互轮次靠后的内容。

故而本申请实施例中，在根据初始评分确定评估内容整体的匹配评分时，可以先根据每组第一输入语句和目标输出语句所处的交互轮次，确定它们对应的初始评分的加权权重，其中，每组第一输入语句和目标输出语句的初始评分的加权权重和它们所处的交互轮次的大小正相关。即交互轮次的数值越大的第一输入语句和目标输出语句，它们对应的初始评分的加权权重也越大，反之，交互轮次的数值越小的第一输入语句和目标输出语句，它们对应的初始评分的加权权重也越小。如此，能够使得智能交互模型更加关注多轮交互的连贯性和稳定性，可以提高训练得到的智能交互模型处理多轮交互任务的性能。

下面结合附图和部分实施例，对本申请中的步骤133的实施方式进行具体说明。

参照图8，本申请步骤133中对于第一输入语句和目标输出语句进行匹配分析，得到初始评分时，可以基于第一输入语句和目标输出语句在内容层面上的匹配关系进行分析。例如，图8示出了在某轮交互中，输入同样的第一输入语句“今天天气不错”，智能交互模型输出不同的目标输出语句的情形。

在第一种情况下，智能交互模型输出的目标输出语句为“是啊，很适合游玩”，在内容层面上很好地衔接了输入的第一输入语句，可以构成逻辑上比较顺畅、连贯性较好的一轮交互，有利于交互的持续进行，这种情况下，说明智能交互模型当前的中控子模型处理本轮交互的内容判断性能较好，能够选择合适的目标输出语句。故而可以针对本轮的交互内容，可以给出一个较高的初始评分。

而在第二种情况下，智能交互模型输出的目标输出语句为“我吃过早饭了”，在内容层面几乎和第一输入语句“今天天气不错”没有任何关联，导致交互内容的逻辑性很差，影响交互的进一步进行，这种情况下，说明智能交互模型当前的中控子模型处理本轮交互的内容判断性能较差，难以选择合适的目标输出语句，故而可以针对本轮的交互内容，可以给出一个较低的初始评分。以上是对本申请中进行内容匹配分析的实施原理的概述，下面对内容匹配分析的一些具体实现进行展开描述。

在一些实施例中，步骤133可以包括但不限于步骤1330至步骤1332：

步骤1330：提取目标输出语句的第一特征信息；

步骤1331：根据第一特征信息进行语义分析，得到目标输出语句的文本检测结果；文本检测结果用于表征目标输出语句中的文本内容是否属于预定格式的自然语言；

步骤1332：根据文本检测结果确定初始评分。

本申请实施例中，在对每组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析，得到初始评分时，可以基于目标输出语句本身的语义是否符合预定格式的自然语言来判断。其中，此处的预定格式一般可以是和第一输入语句相同类型的语言，比如说一般情况下，当输入中文格式的第一输入语句时，希望模型能够对应分析给出中文格式的目标输出语句，以在智能交互模型投入运行时能够有效按照用户给定的方式完成交互，减少出现交互内容不匹配的情况。当然，预定格式也可以包括对语言的种类、语速或者语法搭配等规则的个性化设定。另外，本申请中还对目标输出语句的语义内容进行了检测，可以有效衡量出智能交互模型给出的目标输出语句是否为自然语言，此处，自然语言指的是符合人们日常使用规则的语言，可以方便确定出目标输出语句是否存在无意义、不合常规语法等在语义逻辑上导致内容不匹配的问题。对于这些语义层面的匹配分析，本申请实施例中，可以采用语义分析模型对目标输出语句进行检测，以确定目标输出语句中的文本内容是否属于预定格式的自然语言。

具体地，可以将目标输出语句输入到语义分析模型中，提取目标输出语句的特征信息，记为第一特征信息，然后通过语义分析模型对第一特征信息进行处理后，输出文本检测结果。此处，该文本检测结果既可以是分类结果，也可以是数值结果。而且，语义分析模型也可以被进一步细分，例如建立语种分析模型用于检测目标输出语句中的文本内容是否属于本次交互中限定的语言种类，建立逻辑分析模型用于检测目标输出语句中的文本内容是否符合自然语言的使用方式等等。对于这些语义分析模型来说，统计语言模型或者基于深度学习的语言模型均为可选的实施方式，在此不再展开赘述。

本申请实施例中，在得到文本检测结果后，可以根据文本检测结果来确定初始评分，具体地，当文本检测结果表征目标输出语句中的文本内容属于预定格式的自然语言时，说明中控子模型给出的交互内容在语义上基本符合要求，可以对该组第一输入语句和目标输出语句给出较高的初始评分；反之，当文本检测结果表征目标输出语句中的文本内容不属于预定格式的自然语言时，说明中控子模型给出的交互内容在语义上不符合要求，此时可以对该组第一输入语句和目标输出语句给出较低的初始评分。本申请中，具体的初始评分分值的设置方式以及各类情况对应的评分大小可以根据需要灵活调整，在此不作限定。

在一些实施例中，步骤133可以包括但不限于步骤1333至步骤1336：

步骤1333：获取第一输入语句对应的标准交互语句；

步骤1334：提取目标输出语句的第一特征信息，提取标准交互语句的第二特征信息；

步骤1335：确定第一特征信息和第二特征信息之间的相似度；

步骤1336：根据相似度确定初始评分；初始评分和相似度的大小正相关。

本申请实施例中，在对每组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析，得到初始评分时，还可以事先建立部分第一输入语句对应的标准交互语句库。此处，标准交互语句指的是针对第一输入语句，日常惯用的或者标准的交互内容，例如，对于某些经常出现的交互内容，可以按照出现的频次将其中的部分语句选作标准交互语句；对于部分具有明确答案或者回复的话题，也可以将标准的答案和回复作为标准交互语句。当然，需要说明的是，本申请中，对于标准交互语句的长短不作限制，在一些实施例中，标准交互语句也可以只包括词语。

需要说明的是，本申请实施例中，对于一个第一输入语句，其可以对应有多个标准交互语句，本申请对具体的数量不作限制。

在建立好标准交互语句库时，可以基于它对智能交互模型的交互性能进行评估。具体地，对于一组第一输入语句和目标输出语句，可以首先根据第一输入语句从标准交互语句库中查找确定对应的标准交互语句，然后提取目标输出语句的第一特征信息，以及提取标准交互语句的特征信息，记为第二特征信息。接着，确定第一特征信息和第二特征信息之间的相似度，此处，需要说明的是，为了方便确定第一特征信息和第二特征信息之间的相似度，在提取时可以采用同样的数据结构来表示这些特征信息。举例来说，可以通过嵌入向量来表征第一特征信息和第二特征信息，将第一特征信息记为第一向量，第二特征信息记为第二向量，然后可以通过余弦相似度算法、皮尔逊相关系数法或者杰卡德相似系数法等算法基于第一向量和第二向量计算相似度。

具体地，例如，可以先确定第一向量的长度，记为第一长度，以及第二向量的长度，记为第二长度。接着计算第一长度和第二长度的乘积作为第一数值，以及计算第一向量和第二向量的内积作为第二数值，然后计算第一数值和第二数值的商作为第一向量与第二向量之间的相似度，也即第一特征信息和第二特征信息之间的相似度。

可以理解的是，当第一特征信息和第二特征信息之间的相似度越高，说明目标输出语句和标准交互语句越相似，智能交互模型给出的交互内容越接近标准的交互内容，也就说明其交互效果相对来说越好。故而，本申请实施例中，在得到上述的相似度数据后，可以进一步根据相似度确定第一输入语句和目标输出语句的初始评分，例如可以基于相似度和预定的函数确定出初始评分的数值，该函数使得相似度和初始评分之间为正相关关系，本申请中对具体采用的函数不作限定。

参照图9，本申请步骤133中对于第一输入语句和目标输出语句进行匹配分析，得到初始评分时，也可以基于第一输入语句和目标输出语句在场景层面上的匹配关系进行分析。例如，图9示出了在某轮交互中，输入同样的第一输入语句“明天天气如何？”，智能交互模型输出不同的目标输出语句的情形。显然，此时第一输入语句是一个问句，则对应地，希望智能交互模型能够基于该问句给出正常的答复，即第一输入语句限定了目标输出语句应当是一个“答复场景”下的语句。

在第一种情况下，智能交互模型输出的目标输出语句为“有可能下雨”，对于第一输入语句“明天天气如何？”来说，属于一个“答复场景”类型的输出，构成了提问和答复的一轮正常交互内容，此时目标输出语句可以较好地衔接输入的第一输入语句，构成比较顺畅、连贯性较好的一轮交互，有利于交互的持续进行。类似地，这种情况下，说明智能交互模型当前的中控子模型处理本轮交互的场景判断性能较好，能够选择合适的目标输出语句。故而可以针对本轮的交互内容，可以给出一个较高的初始评分。

而在第二种情况下，智能交互模型输出的目标输出语句为“你买了雨伞吗？”，可见，在面临第一输入语句为一个“提问场景”的情况下，理想的目标输出语句应当是“答复场景”下的内容。而目标输出语句为“你买了雨伞吗？”显然不是一个“答复场景”下的交互内容，而是和第一输入语句同属于“提问场景”。这种情况下，智能交互模型并没有对第一输入语句的提问进行答复，反而提出了新的提问，因此这种和预定场景不匹配的问题将导致交互内容的逻辑性很差，影响交互的顺利进行，这种情况下，说明智能交互模型当前的中控子模型处理本轮交互的场景判断性能较差，难以选择合适的目标输出语句。类似地，可以针对本轮的交互内容，可以给出一个较低的初始评分。以上是对本申请中进行场景匹配分析的实施原理的概述，下面对场景匹配分析的一些具体实现进行展开描述。

在一些实施例中，第一输入语句带有场景标签，步骤133可以包括但不限于步骤1337至步骤1339：

步骤1337：提取目标输出语句的第一特征信息；

步骤1338：根据第一特征信息进行场景分析，得到目标输出语句的场景检测结果；场景检测结果用于表征目标输出语句所属的预设场景类别；

步骤1339：根据场景检测结果和场景标签确定初始评分。

本申请实施例中，在进行场景匹配分析时，首先，可以先对第一输入语句标注对应的场景标签，该场景标签用于表征针对第一输入语句，智能交互模型需要进行交互预测时输出的目标输出语句的语境场景，比如说，当该场景标签为“答复场景”时，输出的目标输出语句所处的语境应当是答复的场景，如果此时输出的目标输出语句所处的语境为提问场景(比如输出的目标输出语句是一句问句)，则说明智能交互模型的交互预测在语境场景层面存在待改进的地方，需要通过对模型参数的调整来改善该问题。此处，场景标签的类别可以根据需要灵活设定，比如说，可以包括有“闲聊场景”、“答复场景”和“提问场景”等等。

接着，对于每组第一输入语句和第一输入语句对应的目标输出语句，可以对目标输出语句进行特征提取，得到第一特征信息。然后对第一特征信息进行场景分析，确定目标输出语句的场景检测结果，该场景检测结果和前述的场景标签类似，用于表征智能交互模型实际进行交互预测时输出的目标输出语句的语境场景。可以理解的是，场景检测结果所属的预设语境场景类别可以和场景标签的设置方式相同，方便后续进行匹配分析。当确定到目标输出语句的场景检测结果时，可以根据每组第一输入语句本身携带的场景标签和对应的目标输出语句的场景检测结果判断智能交互模型的交互的场景判断性能，如果场景检测结果和场景标签相同，说明智能交互模型当前的中控子模型处理本轮交互的场景判断性能较好，输出的目标输出语句符合预期，此时可以对该组第一输入语句和目标输出语句给出较高的初始评分。反之，如果场景检测结果和场景标签不相同，说明智能交互模型当前的中控子模型处理本轮交互的场景判断性能较差，输出的目标输出语句不符合预期，此时可以对该组第一输入语句和目标输出语句给出较低的初始评分。类似地，本申请中，具体的初始评分分值的设置方式以及各类情况对应的评分大小可以根据需要灵活调整，在此不作限定。

在一些更细节的实施例中，本申请的步骤1338可以包括但不限于步骤13381至步骤13382：

步骤13381：将第一特征信息输入到意图分析模型，得到意图分析模型输出的意图预测结果；意图预测结果用于表征子交互模型对第一输入语句的交互动作类别，交互动作类别至少包括提问和答复；

步骤13382：根据意图预测结果确定场景检测结果。

本申请实施例中，在用户通过智能交互模型进行交互时，根据不同的交互需求或者交互阶段，主导每轮交互的可能是用户，也可能是智能交互模型，因此需要智能交互模型更好地适应不同情况下的交互场景需求，故而在进行场景匹配分析时，还可以将预设场景类别划分为“主导类型”和“被主导类型”，类似地，可以事先对第一输入语句标注“主导类型”和“被主导类型”的场景标签，此时场景标签用于表征需要智能交互模型选定输出的目标输出语句的语境场景。比如说，当期望的目标输出语句属于“主导类型”时，则需要智能交互模型选定更有话题性、便于延续交互的目标输出语句；当期望的目标输出语句属于“被主导类型”时，则需要智能交互模型选定更契合第一输入语句需求的目标输出语句。

具体地，对于目标输出语句或者第一输入语句，确定其属于“主导类型”和“被主导类型”，可以根据这些语句本身所表征出的意图信息来判断，而意图可以通过交互动作类别来确定。换句话说，而要判断谁处于主导地位，可以根据交互过程中用户或者智能交互模型的交互动作类别来确定，因为动作本身就是意图的一个维度。比如说，第一输入语句和目标输出语句的交互动作类别可以包括提问、回答、通知、接受、否认、建议、附和、异议等。如果用户或者智能交互模型的语句被判定为交互动作类别是提问、通知、否认、建议、异议等，那他(它)就处于一个主导地位，例如在具体的语境场景中，可以理解成提问表示要求对方回答，异议和否认表示不认同对方观点，要求对方解释，建议表示主动提出一个新的话题方案等。如果用户或者智能交互模型的语句被判定为交互动作类别是回答、接受、附和，则在具体的语境场景中就比较被动，不占主导。

因此，本申请实施例中，可以提取目标输出语句的第一特征信息，将其输入到意图分析模型，通过意图分析模型对目标输出语句的交互动作进行判别，从而确定出意图预测结果。接着，可以根据意图预测结果确定出目标输出语句对应的场景检测结果。比如说，意图预测结果表征目标输出语句的交互动作属于提问、通知、否认、建议、异议中的一种时，目标输出语句对应的场景检测结果为“主导类型”；意图预测结果表征目标输出语句的交互动作属于回答、接受、附和中的一种时，目标输出语句对应的场景检测结果为“被主导类型”。

根据每组第一输入语句本身携带的场景标签和对应的目标输出语句的场景检测结果，可以判断智能交互模型的交互的场景判断性能，例如，当第一输入语句本身携带的场景标签为“被主导类型”，而目标输出语句对应的场景检测结果为“主导类型”，说明目标输出语句并没有对第一输入语句做出很好的动作回应(比如存在互相提问的情况)，这对交互的连贯性存在不利的影响；类似地，当第一输入语句本身携带的场景标签为“主导类型”，而目标输出语句对应的场景检测结果为“被主导类型”，说明目标输出语句并没有完成接续交互话题的任务，很容易导致交互的终结，同样不利于多轮交互任务的顺利进行。

以上的各个实施例中，介绍了对于每组第一输入语句和第一输入语句对应的目标输出语句进行内容匹配分析或者场景匹配分析，得到初始评分的实施情况。本申请的一个实施例中，结合上述的实施例，对步骤130进行进一步的说明，步骤130还可以进一步包括但不限于步骤135至步骤137。

步骤135：对多组第一输入语句和第一输入语句对应的目标输出语句进行内容匹配分析，得到第一评分；

步骤136：对多组第一输入语句和第一输入语句对应的目标输出语句进行场景匹配分析，得到第二评分；

步骤137：对第一评分和第二评分进行加权，得到匹配评分。

本申请实施例中，对于单组第一输入语句和目标输出语句对应的初始评分，既可以是由内容匹配分析得到的，也可以是由场景匹配分析得到的，或者是由两种分析方式确定的评分加权得到的。因此，在确定整体的匹配评分时，可以对其中部分的第一输入语句和目标输出语句，通过内容匹配分析进行评估，得到的初始评分记为第一评分；对另一部分的第一输入语句和目标输出语句，通过场景匹配分析进行评估，得到的初始评分记为第二评分，然后对第一评分和第二评分进行加权，从而得到匹配评分。如此，确定到的匹配评分可以更好地兼顾智能交互模型对交互内容和交互场景的判断处理性能，可以提高训练得到的模型的稳定性以及处理多轮交互任务的效果。

在一些实施例中，如步骤150至步骤180实施例部分所指出的，各个子交互模型可以按照功能需求进行搭建和训练，比如说智能交互模型中，其中的一个(或者多个)子交互模型可以是专门针对答复场景下的需求训练得到的，另一个(或者多个)子交互模型可以是专门针对提问场景下的需求训练得到的。本申请中，在对这些子交互模型进行训练时，可以采用指定的训练数据集进行训练，比如说，采用专门处理“答复场景”下的语料对一个子交互模型进行训练，并建立该训练数据集和“答复场景”的标签的关联关系。这样，在对中控子模型进行训练时，输入的第一输入语句中带有场景标签“答复场景”时，理论上采用专门处理“答复场景”下的语料训练得到的子交互模型应当对该第一输入语句具有更好的交互预测性能。

因此，可以根据中控子模型是否选择了该子交互模型输出的初始输出语句来判断中控子模型的性能，例如果中控子模型选择了该子交互模型输出的初始输出语句作为本轮的目标输出语句，则可以给本轮交互以较高的匹配评分(初始评分)分值；反之，如果中控子模型没有选择该子交互模型输出的初始输出语句作为本轮的目标输出语句，则可以给本轮交互以较低的匹配评分(初始评分)分值。具体地，即对第一输入语句和目标输出语句进行匹配分析，确定匹配评分时，可以先确定输出目标输出语句的子交互模型，记为目标子交互模型，然后检测目标子交互模型和第一输入语句的标签的匹配关系，从而确定匹配评分。如此，可以无需对对语句具体内容进行复杂的分析和匹配，只需简单比照目标子交互模型和第一输入语句的标签的匹配关系即可快速确定匹配评分，可以大大加快训练的效率，减少计算资源的消耗。

本申请实施例中，还提供一种交互方法，类似地，该交互方法可以在图1所示出的实施环境中应用。并且，该交互方法可以单独配置于操作终端101执行，也可以单独配置于服务器102执行，或者基于操作终端101与服务器102二者之间的交互来执行，具体可以根据实际应用情况进行适当的选择，本实施例对此并不作具体限定。

参照图10，本申请实施例提供的一种交互方法的流程图。在本实施例中，以操作终端与服务器共同作为执行主体为例进行说明。参照图10，该交互方法包括但不限于步骤210至步骤240。

步骤210：采集语音数据；

步骤220：对语音数据的文本内容进行语音识别，得到第三输入信息；

步骤230：将第三输入信息输入到如图3所示的智能交互模型的训练方法训练得到的智能交互模型中，得到智能交互模型输出的目标输出语句；

步骤240：将目标输出语句转换为音频数据输出。

本申请实施例中，以操作终端与服务器二者之间的交互实现本申请中的交互方法为例，操作终端至少具有采集用户的语音数据、将语音数据发送给服务器以及接收服务器回传的目标输出语句的文本数据，并将目标输出语句的文本数据转换为音频数据输出的功能；服务器至少具有接收操作终端发送的语音数据、对该语音数据的文本内容进行识别得到输入信息、将输入信息输入到训练好的智能交互模型得到目标输出语句以及将目标输出语句的文本数据发送给操作终端的功能。如此，操作终端可以此将采集到的语音数据发送给服务器，经过服务器中的智能交互模型对语音数据的文本内容进行交互预测，输出目标输出语句，并通过操作终端播放给用户，从而进行智能交互。

在一种可选的实现方式中，操作终端可以为安装有自动导航APP的车载终端，该车载终端中可以包括有音频采集组件、通信组件和音响组件。响应于用户打开车载终端的自动导航APP的操作，车载终端发起对音频采集组件的调用；音频采集组件采集到用户的语音数据后，通过车载终端的通信组件将语音数据发送给自动导航APP的后台服务器，在自动导航APP的后台服务器中，用户的语音数据通过自动语音识别技术(Automatic SpeechRecognition，ASR)被转换为文本信息，记为第三输入信息，接着，服务器将第三输入信息输入到训练好的智能交互模型中，模型可以给出第三输入信息对应的目标输出语句，并将目标输出语句回传给车载终端的通信组件，以使得车载终端接收到目标输出语句后通过音响组件播放对应的音频数据，从而实现基于语音交互的自动导航功能。

在另一种可选的实现方式中，操作终端可以为人机对话机器人，其中也可以包括有音频采集组件、通信组件和音响组件。用户可以与人机对话机器人进行人机交互，从而实现包括信息咨询、情景对话模拟等功能，例如，在医院诊断的应用场景下，可以设置人机对话机器人帮助解答相关的病情咨询和流程办理事宜；在辅助学习的应用场景下，人机对话机器人能够帮助学生了解海量的信息咨询以及解答相关的疑难问题，辅导学生学习；在服务培训的应用场景下，可以通过人机对话机器人模拟客户，锻炼服务人员的业务素养和交流沟通能力。当然，以上的实施场景，仅用于对本申请提供的交互方法的一些具体实现方式进行举例描述，并不意味对其具体的实施做限制。

参照图11，本申请实施例还提供了一种智能交互模型的训练装置，该智能交互模型包括中控子模型和多个训练好的不同的子交互模型，训练装置包括：

获取模块1110，用于获取第一输入信息，第一输入信息中包括多个第一输入语句；

预测模块1120，用于将第一输入语句输入到智能交互模型中，通过各个子交互模型对第一输入语句进行交互预测，得到多个初始输出语句，并通过中控子模型根据第一输入语句确定目标子交互模型，将目标子交互模型输出的初始输出语句确定为第一输入语句对应的目标输出语句；

评分模块1130，用于响应于匹配指令，对若干组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分；匹配指令用于指引进行内容匹配分析或者场景匹配分析中的至少一种；

更新模块1140，用于根据匹配评分确定奖励值，通过奖励值对中控子模型进行强化学习训练，得到训练好的智能交互模型；匹配评分和奖励值正相关。

可以理解的是，图3所示的智能交互模型的训练方法实施例中的内容均适用于本智能交互模型的训练装置实施例中，本智能交互模型的训练装置实施例所具体实现的功能与图3所示的智能交互模型的训练方法实施例相同，并且达到的有益效果与图3所示的智能交互模型的训练方法实施例所达到的有益效果也相同。

参照图12，本申请实施例还公开了一种计算机设备，包括：

至少一个处理器1210；

至少一个存储器1220，用于存储至少一个程序；

当至少一个程序被至少一个处理器1210执行，使得至少一个处理器1210实现如图3所示的智能交互模型的训练方法实施例或者图10所示的交互方法实施例。

可以理解的是，如图3所示的智能交互模型的训练方法实施例或者图10所示的交互方法实施例中的内容均适用于本计算机设备实施例中，本计算机设备实施例所具体实现的功能与如图3所示的智能交互模型的训练方法实施例或者图10所示的交互方法实施例相同，并且达到的有益效果与如图3所示的智能交互模型的训练方法实施例或者图10所示的交互方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于实现如图3所示的智能交互模型的训练方法实施例或者图10所示的交互方法实施例。

可以理解的是，如图3所示的智能交互模型的训练方法实施例或者图10所示的交互方法实施例中的内容均适用于本计算机可读存储介质实施例中，本计算机可读存储介质实施例所具体实现的功能与如图3所示的智能交互模型的训练方法实施例或者图10所示的交互方法实施例相同，并且达到的有益效果与如图3所示的智能交互模型的训练方法实施例或者图10所示的交互方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内

在本说明书的描述中，参考术语“一个实施方式”、“另一实施方式”或“某些实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

Claims

1.一种智能交互模型的训练方法，其特征在于，所述智能交互模型包括中控子模型和多个训练好的不同的子交互模型；所述训练方法包括：

2.根据权利要求1所述的一种智能交互模型的训练方法，其特征在于，所述将所述第一输入语句输入到所述智能交互模型中，通过各个所述子交互模型对所述第一输入语句进行交互预测，包括：

3.根据权利要求2所述的一种智能交互模型的训练方法，其特征在于，所述对若干组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，包括：

4.根据权利要求3所述的一种智能交互模型的训练方法，其特征在于，所述对若干组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到匹配评分，包括：

5.根据权利要求4所述的一种智能交互模型的训练方法，其特征在于，所述对每组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到初始评分，包括：

提取所述目标输出语句的第一特征信息；

根据所述文本检测结果确定所述初始评分。

6.根据权利要求4所述的一种智能交互模型的训练方法，其特征在于，所述对每组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到初始评分，包括：

获取所述第一输入语句对应的标准交互语句；

确定所述第一特征信息和所述第二特征信息之间的相似度；

7.根据权利要求4所述的一种智能交互模型的训练方法，其特征在于，所述第一输入语句带有场景标签；所述对每组所述第一输入语句和所述第一输入语句对应的目标输出语句进行匹配分析，得到初始评分，包括：

提取所述目标输出语句的第一特征信息；

根据所述场景检测结果和场景标签确定所述初始评分。

8.根据权利要求7所述的一种智能交互模型的训练方法，其特征在于，所述根据所述第一特征信息进行场景分析，得到所述目标输出语句的场景检测结果，包括：

根据所述意图预测结果确定场景检测结果。

9.根据权利要求1-8中任一项所述的一种智能交互模型的训练方法，其特征在于，所述第一输入语句带有标签，所述子交互模型通过和所述标签对应的训练数据集训练得到；

10.一种交互方法，其特征在于，所述方法包括以下步骤：

采集语音数据；

将所述第三输入信息输入到如权利要求1-9中任一项所述的智能交互模型的训练方法训练得到的智能交互模型中，得到所述智能交互模型输出的目标输出语句；

将所述目标输出语句转换为音频数据输出。

11.一种智能交互模型的训练装置，其特征在于，所述智能交互模型包括中控子模型和多个训练好的不同的子交互模型；所述训练装置包括：

12.一种计算机设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-9中任一项所述的智能交互模型的训练方法或者实现如权利要求10所述的交互方法。

13.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于：所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-9中任一项所述的智能交互模型的训练方法或者实现如权利要求10所述的交互方法。