CN108874967B

CN108874967B - 对话状态确定方法及装置、对话系统、终端、存储介质

Info

Publication number: CN108874967B
Application number: CN201810582030.6A
Authority: CN
Inventors: 卢小东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2023-06-23
Anticipated expiration: 2038-06-07
Also published as: US20200335104A1; WO2019233219A1; CN108874967A; US11443742B2; EP3805939A1; EP3805939A4

Abstract

本申请公开了一种对话状态确定方法及装置、对话系统、终端、存储介质，属于互联网技术领域。所述方法包括：获取第一对话信息，所述第一对话信息为对话过程中输入的对话信息；基于所述第一对话信息，确定所述第一对话信息对应的目标场景信息，所述目标场景信息用于指示所述第一对话信息的对话场景；基于所述第一对话信息和所述目标场景信息，获取所述第一对话信息对应的第一对话状态，所述第一对话状态用于表征对所述第一对话信息进行应答时的应答模式。本发明提高了确定对话状态的准确性。

Description

对话状态确定方法及装置、对话系统、终端、存储介质

技术领域

本申请涉及互联网技术领域，特别涉及一种对话状态确定方法及装置、对话系统、终端、存储介质。

背景技术

在机器人对话中，机器人可以接收用户输入的对话信息，并根据该对话信息进行应答。在该过程中，机器人可以对该对话信息进行语义理解，根据语义理解内容确定对话状态，并根据该对话状态做出应答。其中，对话状态用于表征对对话信息进行应答时的应答模式。

例如：假设用户输入的对话信息为“这首歌太难听了”，其对应的语义理解内容为：对话信息涉及音乐领域，并指示切换歌曲。此时可以确定需要通过切换歌曲对语音信息进行应答，且应答模式(即对话状态)应指示采用哪种切换方式进行切换。根据对话信息的语义理解内容可以确定应将播放歌曲切换至当前播放列表中的下一首歌曲，也即是，对话状态为：将播放歌曲切换至当前播放列表中的下一首歌曲。相应的，机器人根据该对话状态可执行播放该下一首歌曲的操作。

相关技术中，可以采用长短记忆(Long Short-Term Memory，LSTM)神经网络确定对话状态。其实现过程包括：将本次输入的对话信息对应的语义理解内容输入至LSTM神经网络，LSTM神经网络基于该语义理解内容，以及在该对话信息之前输入的对话信息所对应的对话状态，可以确定本次输入的对话信息对应的对话状态。

但是，由于机器人对用户输入的对话信息的理解能力有限(即语义理解能力有限)，或者，用户对对话信息的表述不够清晰等因素，导致输入至LSTM神经网络的语义理解内容与用户想要表达的意思存在偏差，进而导致LSTM神经网络根据该语义理解内容确定的对话状态的准确性较低。

发明内容

本发明实施例提供了一种对话状态确定方法及装置、对话系统、终端、存储介质，可以解决相关技术中确定的对话状态的准确性较低的问题。所述技术方案如下：

一方面，提供了一种对话状态确定方法，所述方法包括：

获取第一对话信息，所述第一对话信息为对话过程中输入的对话信息；

基于所述第一对话信息，确定所述第一对话信息对应的目标场景信息，所述目标场景信息用于指示所述第一对话信息的对话场景；

基于所述第一对话信息和所述目标场景信息，获取所述第一对话信息对应的第一对话状态，所述第一对话状态用于表征对所述第一对话信息进行应答时的应答模式。

另一方面，提供了一种对话状态确定装置，所述装置包括：

第一获取模块，用于获取第一对话信息，所述第一对话信息为对话过程中输入的对话信息；

确定模块，用于基于所述第一对话信息，确定所述第一对话信息对应的目标场景信息，所述目标场景信息用于指示所述第一对话信息的对话场景；

第二获取模块，用于基于所述第一对话信息和所述目标场景信息，获取所述第一对话信息对应的第一对话状态，所述第一对话状态用于表征对所述第一对话信息进行应答时的应答模式。

又一方面，提供了一种对话系统，所述系统包括：第二方面任一所述的对话状态确定装置。

再一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面任一所述的对话状态确定方法。

再一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面任一所述的对话状态确定方法。

通过基于输入的对话信息确定该对话信息对应的目标场景信息，该目标场景信息能够体现产生对话信息的对话场景，并基于该对话信息和该目标场景信息，确定该对话信息在该对话场景中所对应的对话状态，相较于相关技术，能够减小相同的对话信息在不同的对话场景中存在多种不同的理解对确定对话状态所产生的干扰，因此，有效提高确定对话状态的准确性。根据该较准确的对话状态对对话信息进行应答时，能够提高用户对应答的满意度，进而提高用户体验。

并且，在获取第一对话信息后，根据该第一对话状态确定对应的对话状态的过程中无需人为干预，因此，该技术方案可较好地适用于闲聊等自由度较高的机器人。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音对话系统的结构示意图。

图2是本发明实施例提供的一种对话状态确定方法的流程图。

图3是本发明实施例提供的一种确定目标场景信息的方法流程图。

图4是本发明实施例提供的一种基于语义标签，查询场景信息集合，确定目标场景信息的方法流程图。

图5是本发明实施例提供的另一种确定目标场景信息的方法流程图。

图6是本发明实施例提供的一种LSTM神经网络的结构示意图。

图7是本发明实施例提供的一种基于第一对话信息和目标场景信息，获取第一对话信息对应的第一对话状态的方法流程图。

图8是本发明实施例提供的另一种基于第一对话信息和目标场景信息，获取第一对话信息对应的第一对话状态的方法流程图。

图9是本发明实施例提供的一种建立场景信息集合的方法流程图。

图10是本发明实施例提供的一种构建的场景网络的示意图。

图11是本发明实施例提供的一种根据至少一个场景网络中各个网络节点之间的连接关系，构造多个场景向量的方法流程图。

图12是本发明实施例提供的一种场景网络的示意图。

图13是本发明实施例提供的一种对话状态确定装置的结构示意图。

图14是本发明实施例提供的另一种对话状态确定装置的结构示意图。

图15是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在机器人与用户对话的过程中，机器人接收用户输入的对话信息并根据该对话信息进行应答的过程，通常是通过语音对话系统(Spoken Dialogue System)实现的。该语音对话系统是一种试图读懂用户的口语语言，并尝试做出有效应答的智能人机交互系统。

请参考图1，语音对话系统主要包括：自动语音识别(Automatic SpeechRecognition，ASR)装置、自然语音理解(Natural Language Understanding，NLU)装置、对话管理(Dialogue Management，DM)装置、自然语音生成(Natural Language Generation，GLU)装置和语音合成(Text To Speech，TTS)装置等。其中，自动语音识别装置用于识别用户输入的对话信息，并将该识别的对话信息输入至自然语音理解装置。自然语音理解装置用于对该对话信息进行语义理解，并将语义理解内容输入至对话管理装置。对话管理装置用于根据该语义理解内容确定对话状态，并将对话状态输入至自然语音生成装置，其中，对话状态用于表征对对话信息进行应答时的应答模式。自然语音生成装置用于根据该对话状态生成应答的内容，例如：生成文本形式的自然语言，或者，根据对话状态生成执行操作的指令。语音合成装置用于获取自然语音生成装置生成的文本形式的自然语言，并通过语音合成技术将该文本形式的自然语言转换成流畅的语音，播放给用户，以实现对用户对话信息的应答。

请继续参考图1，对话管理装置一般包括：对话状态跟踪(dialogue StateTracking)组件和对话策略(dialogue Policy)组件。该对话状态跟踪组件用于根据输入的对话信息的语义理解内容和在该对话信息之前输入的对话信息的语义理解内容确定该对话信息的对话状态。例如：在输入的对话信息为“这首歌太难听了”，在该对话信息之前输入的对话信息的语义理解内容为：涉及音乐领域，并指示播放歌曲时，可以确定对话状态为：将播放歌曲切换至当前播放列表中的下一首歌曲，即确定对对话信息进行应答时的应答模式为：通过将播放歌曲切换至当前播放列表中的下一首歌曲实现应答。该对话策略组件用于根据对话状态跟踪组件确定的对话状态和预设任务决定需要执行的动作，以确定对该对话信息进行应答的策略。例如：根据“将播放歌曲切换至当前播放列表中的下一首歌曲”的对话状态确定的策略可以包括：是否继续追问用户对歌曲的喜好，以判断如何执行将播放歌曲切换至当前播放列表中的下一首歌曲的操作，或者，根据该对话状态确定需要执行将播放歌曲切换至当前播放列表中的下一首歌曲的操作。

一般地，该语音对话系统的功能可通过运行在一个或多个终端中的计算机程序实现，且语音对话系统中包括的每个装置的功能也可通过运行在一个或多个终端中的计算机程序实现。

相关技术中，对话状态跟踪组件的功能一般通过神经网络实现，本实施例中，该神经网络可以是LSTM神经网络。其实现过程包括：将输入的对话信息对应的语义理解内容输入至LSTM神经网络，LSTM神经网络基于该语义理解内容，以及在该对话信息之前输入的对话信息所对应的对话状态，可以确定该输入的对话信息对应的对话状态。但是由于自然语音理解装置的语义能力、用户表述和对话信息的场景等因素的影响，导致LSTM神经网络确定的对话状态的准确性较低。

为此，本发明实施例提供了一种对话状态确定方法，通过基于输入的对话信息确定该对话信息对应的目标场景信息，该目标场景信息能够体现产生对话信息的对话场景，并基于该对话信息和该目标场景信息，确定该对话信息在该对话场景中所对应的对话状态，能够减小相同的对话信息在不同的对话场景中存在多种不同的理解对确定对话状态所产生的干扰，因此，能够有效地提高确定对话状态的准确性。

请参考图2，其示出了本发明实施例提供的一种对话状态确定方法的流程图，该方法可应用于上述语音对话系统或对话状态跟踪组件，本发明实施例以该方法应用于对话状态跟踪组件为例对其进行说明。如图2所示，该方法可以包括：

步骤201、获取第一对话信息，该第一对话信息为对话过程中输入的对话信息。

通常地，该第一对话信息可以为在用户与机器人对话的过程中，用户通过语音输入方式向机器人输入的对话信息。例如，用户输入的第一对话信息可以为“这首歌太难听了”。

需要说明的是，对话状态跟踪组件通常是根据自然语音理解装置识别的语义理解内容确定对话状态的，因此，当该对话状态确定方法应用于对话状态跟踪组件时，在该步骤201中，获取的第一对话信息可以理解为根据用户输入的第一对话信息所确定的语义理解内容。示例地，假设用户输入的对话信息为“这首歌太难听了”，则该第一对话信息可以为根据该对话信息所确定的语义理解内容“对话信息涉及音乐领域，并指示切换歌曲”。

其中，语义理解内容可以为通过自然语言理解(Natural Language Understand，NLU)技术对该第一对话信息进行处理后得到内容。该自然语言理解技术可以通过对用户输入的第一对话信息进行分词、词性标注、命名实体识别、文本分类和情感分析等处理，以获取对应的语义理解内容。该分词处理指将第一对话信息的汉字序列切分成词序列。该词性标注指标注第一对话信息中词的词性，以确定其在对话上下文中的作用。该命名实体识别指在第一对话信息中识别用于定位并识别人名、地名、机构名、数字和日期等实体的过程。该文本分类指将对话信息归入预定义类别中的一个或几个，该预定义类别为事先根据实际需要进行定义的。情感分析指确定用户对对话信息所涉及的话题的两极性观点(例如：积极或消极)和情绪(例如：高兴、悲伤、喜欢或厌恶等)等。

步骤202、基于第一对话信息，确定第一对话信息对应的目标场景信息。

其中，该目标场景信息用于指示通过第一对话信息构建出的对话场景。示例地，当用户输入“我最近在看×××电视剧”的第一对话信息时，该第一对话信息可以构建出电视剧的场景，该目标场景信息可用于指示该电视剧的场景。

可选地，该步骤202可以有多种可实现方式，本发明实施例以以下两种可实现方式为例为其进行说明：

在确定第一对话信息对应的目标场景信息的第一种可实现方式中，可以根据第一对话信息查询预设的场景信息集合，以确定目标场景信息。如图3所示，该确定目标场景信息的第一种可实现方式的实现过程可以包括：

步骤2021a、基于第一对话信息，获取第一对话信息的语义理解内容。

若步骤201中的第一对话信息为用户与机器人对话的过程中，通过语音输入方式输入机器人的对话信息，在该步骤2021a中可以采用自然语言理解技术获取该第一对话信息的语义理解内容。

若步骤201中的第一对话信息为根据用户输入的对话信息所确定的语义理解内容，则无需执行该步骤2021a，也即是，可以根据步骤201中的第一对话信息的语义理解内容直接执行步骤2022a。

步骤2022a、基于语义理解内容，识别第一对话信息的语义标签。

其中，语义标签用于标识场景信息所指示的对话场景的类型。对话信息的语义标签可以为TAG标签，即该语义标签可以为概括语义理解内容的主要内容的关键词，该语义标签的类型可以包括：标题标签(Title Tag)、描述标签(Description Tag)和关键词标签(Keywords Tag)等。

可选地，识别第一对话信息的语义标签的实现方式可以有多种，本发明实施例以以下三种可实现当时为例对其进行说明：

作为识别第一对话信息的语义标签的第一种可实现方式，可以采用分类器识别第一对话信息的语义标签。

可以将第一对话信息的语义理解内容或者根据语义理解内容获取的特征输入至分类器，分类器对该输入的信息进行分析后，可将多个预设标签中的一个确定为该输入的信息对应的语义标签，以得到该第一对话信息的语义标签。其中，该分类器可以为：朴素贝叶斯分类器、神经网络分类器和支持向量机分类器等。该多个预设标签可以为在分类器训练过程中确定的标签。

示例地，假设分类器中预设标签为“电视剧”、“音乐”和“学习”，通过向分类器输入“我最近在看×××电视剧”的第一对话信息的语义理解内容，分类器对其进行分析后，可将电视剧的标签确定为该第一对话信息的语义标签。

作为识别第一对话信息的语义标签的第二种可实现方式，可以采用推荐系统识别第一对话信息的语义标签。

推荐系统可以获取用户输入的历史对话信息，并根据该历史对话信息分析用户特点，并建立用户特点与语义标签的对应关系。在识别该第一对话信息的语义标签时，推荐系统可以根据输入的第一对话信息的语义理解内容确定用户特点，并根据用户特点与语义标签的对应关系确定该第一对话信息的语义标签。其中，该推荐系统可以为：基于内容的推荐系统或基于协同过滤的推荐系统等。

作为识别第一对话信息的语义标签的第三种可实现方式，可以根据预设的规则集合识别第一对话信息的语义标签。可选地，该规则集合可以表示为：若语义理解内容中包括词A1，则第一对话信息的语义标签为B1；若语义理解内容中包括词A2，则第一对话信息的语义标签为B2。例如：若场语义理解内容中包括“吵架”，则第一对话信息的语义标签可以为生气；若语义理解内容中包括“跳舞”，则第一对话信息的语义标签可以为幸福。需要说明的是，该规则集合的示例仅用于示意性的说明，实际的规则集合较复杂。

需要说明的是，第一对话信息可以与多个语义标签对应，且该多个语义标签可以为从不同角度概括语义理解内容的主要内容的关键词。示例地，该多个角度可以包括：语义主体、情绪、用户群体、服务环境和物理环境等，下面分别对该几个角度进行示例性的说明：

语义主体可以包括：对话话题、对话领域、对话意图和对话实体概念等。其中，对话话题可以包括：最爱看的电视剧，或者，爱听的歌曲等。对话领域可以包括：娱乐或者通信等。对话意图可以包括：查询或播放歌曲等。对话实体概念可以包括：桌子和椅子等。

情绪可以包括：正面、负面、急躁、生气、愤怒、幸福、快乐和开心等。

用户群体可以包括：小孩、老人、女性、男性和文艺青年等。

服务环境可以包括：查询到前方在堵车或畅通，查询到日程晚了，查询到今天天气不错，查询到今天天气很差，以及，开通了某服务等。

物理环境可以为机器人所处的物理环境或者用户所处的物理环境。该物理环境可以包括：多人聊天的环境、用户在跳舞的环境、小朋友玩手机的环境、用户打盹的环境、光线很暗的环境和噪音很大的环境等。

示例地，假设第一对话信息为“这首歌太难听了”，其语义理解内容为“对话信息涉及音乐领域，并指示切换歌曲”，将该语义理解内容输入分类器后，得到的语义标签可以为“开心”和“处于放歌的服务环境”。

步骤2023a、基于语义标签，查询场景信息集合，确定目标场景信息。

其中，场景信息集合中记载有多个场景信息与语义标签的对应关系，根据语义标签查询该场景信息集合，可以得到该语义标签对应的目标场景信息。

可选地，每个场景信息可以由场景向量表征，每个场景向量用于表征对应场景信息与其他场景信息的关联关系，且场景信息与用于表征该场景信息的场景向量为一一对应关系。并且，第一对话信息的语义标签可以为包括至少一个语义标签的标签集合。

当场景信息由场景向量表征，且第一对话信息的语义标签为包括多个语义标签的标签集合时，请参考图4，该步骤2023a的实现过程可以包括：

步骤a1、基于多个语义标签，分别查询场景信息集合，得到与多个语义标签对应的至少一个场景向量。

由于场景信息与语义标签可以为一对多的对应关系，且场景信息与用于表征该场景信息的场景向量为一一对应关系，因此，根据多个语义标签查询到的场景向量可以为一个或多个。若根据该多个语义标签查询到一个场景向量，则该场景向量为目标场景信息。若根据该多个语义标签查询到多个场景向量，可对查询到的多个场景向量进行处理，以得到目标场景向量，即执行步骤a2。

步骤a2、当查询到的场景向量为多个时，对多个场景向量进行拼接，得到目标场景向量。

对多个场景向量进行拼接，也即是，对多个场景向量执行向量拼接操作。

示例地，假设查询到的向量分别为：

和/>

对两个向量进行拼接后可得目标场景向量为：/>

需要说明的是，场景向量可以由各种维度的场景分析模块来生成，例如情感分析模块或基于语义理解的语义分析模块，且场景本身也可以随着时间变化，例如：上文语义场景和用户心情场景等会随着时间变换。并且，根据第一对话信息构建的对话场景可以包括服务环境和物理环境等多个场景。因此，根据语义标签查询到的场景向量可以为多个，且该多个场景向量可以从多个维度反映第一对话信息的对话场景。通过对该多个场景向量进行拼接以得到目标场景向量，并根据该目标场景向量确定第一对话状态，能够从多个维度确定第一对话状态，以进一步提高确定对话状态的准确性。

在确定第一对话信息对应的目标场景信息的第二种可实现方式中，可以根据第一对话信息和在输入第一对话信息之前输入的第二对话信息确定目标场景信息。且为便于描述，在该第二种可实现方式的描述中，将根据第一对话信息得到的场景信息称为第一场景信息，根据第二对话信息得到的场景信息称为第二场景信息，如图5所示，其实现过程可以包括：

步骤2021b、基于第一对话信息的语义标签查询场景信息集合，确定第一对话信息的第一场景信息。

该步骤2021b的实现过程请参考上述确定第一对话信息对应的目标场景信息的第一种可实现方式的实现过程，此处不再赘述。

步骤2022b、获取第二对话信息所对应的第二场景信息。

由于在输入第二对话信息之后，会根据该第二对话信息确定该第二对话信息对应的目标场景信息(即第二场景信息)，并根据该第二场景信息执行后续确定该第二对话信息对应的对话状态的步骤，因此，可以直接根据该第二对话信息查询存储的第二场景信息。或者，可以根据获取的第二对话信息查询场景信息集合，以确定第二场景信息。

步骤2023b、基于第二场景信息和第一场景信息获取目标场景信息。

可选地，步骤2023b的实现方式可以包括：基于第二场景信息对第一场景信息进行调整，以得到目标场景信息。

在一种可实现方式中，可以采用神经网络基于第二场景信息对第一场景信息进行调整，以确定目标场景信息。在本发明实施例中，以该神经网络为LSTM神经网络为例对其进行说明。LSTM神经网络的结构请参考图6，其中，X(t-1)、X(t)和X(t+1)分别为LSTM神经网络在t-1、t和t+1时刻的输入，即分别为t-1、t和t+1时刻输入的对话信息。h(t-1)、h(t)和h(t+1)分别为该LSTM神经网络的隐含层在t-1、t和t+1时刻的输出，即在t-1、t和t+1时刻的目标场景信息。C(t-1)、C(t)和C(t+1)分别为从t-1、t和t+1时刻传递至下一时刻的细胞状态，此处细胞状态可以为对话信息的上下文信息。例如：假设t时刻输入的对话信息X(t)为第一对话信息，t-1时刻输入的对话信息X(t-1)为第二对话信息，则隐含层在t-1时刻输出的h(t-1)为第二场景信息，隐含层在t时刻输出的h(t)即为目标场景信息。

请继续参考图6，该LSTM神经网络的功能主要通过三个门实现，即忘记门、输入层门和输出层门。忘记门用于决定从细胞状态中丢弃哪些信息，门限δ1用于控制通过该忘记门的数据量，δ1的取值范围为[0，1]，δ1＝0表示“完全的保留”，δ1＝1表示“完全的丢弃”。输入层门用于决定哪些新的信息需要存储在细胞状态中，其功能主要通过输入门限层(δ2)和tanh1层实现，该输入门限层(δ2)用于决定更新哪些值，tanh1层用于创建新的候选向量，并将其加入到细胞状态中。输出层门用于决定输出，其功能通过输出门限层(δ3)和tanh2层实现，输出门限层(δ3)决定细胞转态哪些部分需要输出，tanh2层用于对细胞状态进行处理，并输出范围为[-1，1]的数值，该输出层门的输出为输出门限层(δ3)的输出与tanh2层的输出的乘积。可选地，该δ1、δ2和δ3的取值均可以根据实际需要进行设置。

当将第一对话信息的语义理解内容输入至LSTM神经网络后，该LSTM神经网络可获取该第一对话信息对应的第一场景信息，并根据LSTM神经网络中传递的第二场景信息对该第一场景信息进行调整，以得到该目标场景信息。

在获取目标场景信息时，第二场景信息能够补全第一对话信息中所缺少的信息，使得能够根据较全面的信息确定目标场景信息，以使确定的目标场景信息更准确，进而使确定的第一对话状态具有更高的准确性。

步骤203、基于第一对话信息和目标场景信息，获取第一对话信息对应的第一对话状态。

其中，第一对话状态用于表征对第一对话信息进行应答时的应答模式。

可选地，请参考图7，该步骤203的实现过程，可以包括：

步骤2031a、获取在第一对话信息之前输入的第二对话信息的语义理解内容。

每次向语音对话系统输入对话信息后，该语音对话系统中均会对该输入的对话信息进行记录，因此，在该步骤2031a中，可以根据输入第一对话信息的时刻，在语音对话系统的对话信息历史记录中查询，以获取在该时刻之前输入的对话信息。

在确定第一对话状态之前，获取第二对话信息的语义理解内容，该第二对话信息的语义理解内容能够补全第一对话信息中所缺少的信息，使得能够根据较全面的信息确定第一对话状态，进而使确定的对话状态更准确。

步骤2032a、基于第二对话信息的语义理解内容、第一对话信息的语义理解内容和目标场景信息获取第一对话状态。

可选地，该步骤2032a可以通过神经网络实现，其实现过程可以包括：将第一对话信息的语义理解内容和目标场景信息输入神经网络，由神经网络根据第二对话信息的语义理解内容确定第二对话状态，并根据该第二对话状态、该第一对话信息的语义理解内容和该目标场景信息，确定第一对话状态。其中，该神经网络可以为LSTM神经网络，且该LSTM神经网络根据该第二对话状态、该第一对话信息的语义理解内容和该目标场景信息确定第一对话状态的原理，请相应参考步骤2023b中的相关说明。

由于同一对话信息在不同场景中表示的意思不同，机器人根据其表达的不同意思所确定的对话状态不同，相应地，根据该不同的对话状态做出的应答不同。但是，在相关技术中，机器人没有感知场景的能力，因此，机器人在确定对话信息的对话状态时，无法有效地根据不同的场景确定对话信息所表达的意思，导致根据其确定的对话状态的准确性较低。在本发明实施例中，能够根据第一对话信息确定其对应的目标场景信息，且该目标场景信息能够体现产生对话信息的对话场景，使得在确定第一对话信息的对话状态时，能够确定该对话信息在该对话场景中所对应的对话状态，进而减小相同的对话信息在不同的对话场景中存在多种不同的理解对确定对话状态所产生的干扰，因此，本发明实施例提供的对话状态确定方法能够有效提高确定对话状态的准确性。机器人根据该具有较高准确性的对话状态，能够做出较准确的应答，进而能够提高机器人的个性化能力。

需要说明的是，在分别使用神经网络确定目标场景信息和第一对话状态之前，可以分别采用预设样本对神经网络进行训练，以得到神经网络中的相关参数，例如：当采用LSTM神经网络确定目标场景信息和第一对话状态之前，可以通过训练过程调整LSTM神经网络中神经元之间的连接权值等参数。

进一步地，由于场景信息可以由场景向量表征，且每个场景向量用于表征对应场景信息与其他场景信息的关联关系，因此，请参考图8，该步骤203的另一种实现方式可以包括以下步骤：

步骤2031b、基于目标场景信息的场景向量，确定与目标场景信息存在关联关系的至少一个待选场景信息。

由于每个场景向量用于表征对应场景信息与其他场景信息的关联关系，因此，在确定目标场景信息后，可以根据该目标场景信息的场景向量，确定与该目标场景信息存在关联关系的至少一个待选场景信息。

示例地，假设目标场景信息为语义标签开心对应的场景信息，且该开心对应的场景向量可以通过幸福、快乐和正面对应的场景信息进行表示，即该目标场景信息的场景向量可以表征开心对应的场景信息与幸福、快乐和正面对应的场景信息的关联关系，因此，根据开心对应的场景向量可以确定至少一个待选场景信息分别为幸福对应的场景信息、快乐对应的场景信息和正面对应的场景信息。

步骤2032b、基于目标场景信息和至少一个待选场景信息，根据第一对话信息确定第一对话状态。

在确定目标场景信息和至少一个待选场景信息后，对于目标场景信息和至少一个待选场景信息中的每一个场景信息，可以分别执行步骤2032a，以获取对应的对话状态，然后根据目标场景信息和至少一个待选场景信息中的每一个所对应的对话状态确定第一对话状态。示例地，该确定第一对话状态的实现方式可以包括：对该目标场景信息和至少一个待选场景信息对应的对话状态执行预设的逻辑运算，将该逻辑运算的结果确定为第一对话状态，或者，分别确定该目标场景信息和至少一个待选场景信息中的每一个所对应的对话状态的权值，并将该目标场景信息和至少一个待选场景信息对应的对话状态的加权和确定为该确定为第一对话状态。

需要说明的是，由于语义理解能力限制等因素，根据语义理解内容确定语义标签时，可能出现确定的语义标签的准确性较低的情况，若再根据该语义标签确定对话信息对应的目标场景信息，则可能导致确定的目标场景信息出现错误，进而导致确定的对话状态的准确性较低。但是，当通过场景向量表示场景信息时，由于场景向量中被表示的场景信息与表示该场景信息的其他场景信息之间存在关联关系，因此，即使语义理解内容的准确性较低，根据该语义理解内容确定语义标签时，只要确定的语义标签为该其他场景信息对应的语义标签，根据该场景信息与其他场景信息之间的关联关系，也能够将语义标签映射为该场景信息对应的语义标签，以提高确定语义标签的正确性。相应的，根据该具有较高准确性的语义标签确定目标场景信息时，能够提高确定目标场景信息的准确性，即提高场景信息的泛化能力，进而提高确定对话状态的准确性。

例如：开心对应的场景向量可以通过幸福、快乐和正面等语义标签对应的场景信息进行表示，当输入的对话信息为与语义标签“开心”相关的信息时，即使根据其确定的语义标签为幸福、快乐和正面中的任一种，根据开心对应的场景向量与幸福、快乐和正面等对应的场景信息之间的关联关系，也能够将语义标签映射为开心的语义标签，即提高了确定语义标签的正确性。当根据该语义标签确定对话信息对应的目标场景信息时，能够较准确地确定目标场景信息。

相关技术中，由于相同的对话信息在不同的对话场景中存在多种不同的理解，在训练LSTM神经网络时，需要使用较多的具有不同理解的对话信息对LSTM神经网络进行训练，以使训练得到的LSTM神经网络能够根据不同的对话信息较准确地确定对话状态。但是，由于语言的多样性，训练样本无法完整地覆盖对话信息在不同的对话场景中存在多种不同的理解，使得训练得到的LSTM神经网络的适用范围较窄。当通过场景向量表示场景信息时，由于场景信息具有较高的泛化能力，根据不同的对话信息均能够较准确的确定对话状态，因此，在训练LSTM神经网络时无需使用较多的训练样本，进而降低了对训练样本的要求，并相应地拓展了LSTM神经网络的适用范围。

需要说明的是，在步骤201至步骤203之前，该对话状态确定方法还可以包括建立场景信息集合的过程，请参考图9，该建立场景信息集合的过程可以包括：

步骤301、获取多个预设场景信息的语义标签。

其中，该预设的场景信息可以为根据预设训练目标采集的场景信息，且采集方式可以包括：通过人工方式、自动方式或人工+自动的半自动方式进行采集。可选地，获取多个预设场景信息的语义标签的实现过程也可以通过分类器、推荐系统和预设的规则集合等实现，且每种实现方式的实现过程请相应参考步骤2022a中的实现过程，此处不再赘述。

作为一种可实现方式，在获取场景信息的语义标签后，还可以各个语义标签所表达的意思之间的关联关系，对语义标签进行归纳，例如：将生气归纳为负面情绪，将开心、幸福和快乐归纳为正面情绪等。对语义标签进行标签归纳后，还可以根据该关联关系对语义标签进行层次化管理，例如：可以采用本体论(ontology)概念对语义标签进行层次化管理，或者，采用较松散的标签架构对语义标签进行管理，例如：采用Linked data或Dataconnection等标签架构。其中，采用本体论概念管理的标签具有严格的指向性，对各个标签形成的标签架构中的任一标签执行移动或删除操作时，整个标签架构均会受到影响。采用较松散的标签架构对语义标签进行管理时，对标签架构中的任一标签执行操作均不会对标签架构中的其他标签产生影响。

示例地，假设多个预设场景信息包括：场景信息1、场景信息2、场景信息3、场景信息4、场景信息5和场景信息6，将该6个场景信息分别输入至分类器后，分类器输出的该6个场景信息的语义标签分别为：正面、负面、开心、生气、快乐和幸福，为便于查看，将场景信息与语义标签的对应关系通过表1进行表示。

表1

步骤302、基于多个预设场景信息的语义标签构建至少一个场景网络，每个语义标签为至少一个场景网络中的一个网络节点。

不同类型的对话场景的语义标签之间通常存在关联关系，例如：从情绪角度分类的正面、负面、开心、生气、幸福和快乐等语义标签之间具有关联关系。该语义标签之间的关联关系可通过网络的形式进行表示，因此，可以基于多个场景信息的语义标签构建至少一个场景网络，且每个语义标签为该至少一个场景网络中的一个网络节点。可选地，可以采用数据挖掘的方法对多个场景信息的语义标签进行分析，以寻找多个语义标签之间的关联关系，并基于该关联关系构建至少一个场景网络。

示例地，对于步骤301中获取的6个场景信息的语义标签，根据其标签之间的关联关系可构建图10所示的场景网络，从图10所示的场景网络可以看出：可以从情绪的角度对该6个场景信息所指示的对话场景进行分类，且场景信息2对应的语义标签“负面”与场景信息4对应的语义标签“生气”存在关联关系。场景信息1对应的语义标签“正面”分别与场景信息3对应的语义标签“开心”、场景信息5对应的语义标签“快乐”、场景信息6对应的语义标签“幸福”存在关联关系。场景信息3对应的语义标签“开心”与场景信息5对应的语义标签“快乐”存在关联关系。场景信息5对应的语义标签“快乐”与场景信息6对应的语义标签“幸福”存在关联关系。

步骤303、根据至少一个场景网络构造多个场景向量，该多个场景向量与多个场景信息一一对应。

该步骤303的实现过程可以包括：根据至少一个场景网络中各个网络节点之间的连接关系，构造多个场景向量。请参考图11，其实现过程可以包括：

步骤3031、沿至少一个场景网络中的任一条路径进行游走，以得到多个节点序列，每个节点序列包括至少两个网络节点。

在场景网络中进行游走时，可将场景网络中随机一个网络节点作为游走路径的起点，并且，从该起点开始游走时，可将场景网络中该起点邻域中的任一个网络节点确定为游走到的点，并继续以该游走到的点为起点进行游走，直至游走的步数达到预设步数或者游走路径满足预设要求时停止游走。该游走过程中，从游走起点至游走终点构成的路径中包括多个网络节点，该多个网络节点按照游走顺序所组成的序列称为节点序列。并且，在执行该步骤3031时，可以分别在场景网络中任选多个起点进行游走，以得到多个节点序列，且每个节点序列包括至少两个网络节点。可选地，可以采用随机游走算法在场景网络中进行游走，以得到多个节点序列。

示例地，请参考图12，场景网络W包括网络节点1、网络节点2、网络节点3、网络节点4、网络节点5和网络节点6，在该场景网络W中进行游走后，可以得到多个节点序列，例如：至少可以得到以下三个节点序列，该三个节点序列分别为：网络节点1→网络节点3→网络节点1→网络节点5，网络节点2→网络节点1→网络节点3→网络节点4，网络节点6→网络节点1→网络节点5→网络节点1，其中，“→”表示游走方向。

步骤3032、基于多个节点序列，确定每个网络节点与其他网络节点之间的相似度。

网络节点与其他网络节点之间的相似度是指：该网络节点对应的语义标签所表达的语义与其他网络节点对应的语义标签所表达的语义之间的相似度。当两个网络节点同时出现在一个节点序列中的频率越高，表示该两个网络节点的相似度越高。且该两个网络节点在节点序列中出现的距离越近，表示该两个网络节点的相似度越高。根据该两条原则，可以基于多个节点序列确定每个节点与其他网络节点之间的相似度。可选地，可以将该多个节点序列输入至神经网络，神经网络对各个节点进行分析后，可输出每个节点与其他节点之间的相似度。

示例地，假设节点序列中的网络节点包括：开心、幸福、快乐和正面，将该节点序列输入至神经网络后，其输出的开心与幸福、快乐和正面的相似度分别为0.45、0.35和0.2，幸福与快乐和正面相似度分别为0.4和0.15，快乐和正面的相似度为0.25，为便于查看，将每个网络节点与其他网络节点之间的相似度通过表2进行表示。

表2

	开心	幸福	快乐	正面
					开心	1	0.45	0.35	0.2
幸福	0.45	1	0.4	0.15
					快乐	0.35	0.4	1	0.25
正面	0.2	0.15	0.25	1

步骤3033、基于相似度构造多个场景向量。

由于语义标签用于标识场景信息所指示的对话场景的类型，相应的，语义标签之间的相似度可表现为场景信息之间的相似度。并且，根据场景信息之间的相似度，可以通过多个其他场景信息的组合表示某场景信息，该其他场景信息为与该某场景信息具有相似度的场景信息，且该用于表示该某场景信息的多个场景信息的组合可称为该场景信息的场景向量，也即是，该场景向量用于表征该场景信息与该多个场景信息之间的关联关系。

示例地，参考表2所示的各个网络节点之间的相似度，可知开心对应的场景向量中包括幸福、快乐和正面的成分，该开心对应的场景向量K可以表示为K＝0.45×幸福+0.35×快乐+0.2×正面。需要说明的是，该开心对应的场景向量的示例仅用于示意性的说明，实际的场景向量的表示方式较复杂。

在一种可实现方式中，可以通过深度游走(Deep Walk)等网络表示方法实现该步骤303，其实现过程可以包括：通过在至少一个场景网络中随机游走，以产生多个随机游走的节点序列，再通过神经网络语言模型将节点序列中的每个网络节点训练成向量，其中，训练过程可以为无监督学习的过程，神经网络语言模型可以为skip-gram等词向量模型。

需要说明的是，上述步骤302和步骤303为根据语义标签实现通过场景向量表示场景信息的过程。可选地，在建立场景信息集合也可以选择不执行该步骤302和步骤303，即直接根据语义标签建立场景信息与语义标签的对应关系。

步骤304、基于多个场景信息和对应的语义标签建立场景信息集合。

在一种可实现方式中，若未执行上述步骤302和步骤303，则可以直接根据步骤301确定的语义标签建立场景信息集合。由于在步骤301中已获取了每个场景信息对应语义标签，根据多个场景信息与语义标签的对应关系，可以直接建立场景信息与语义标签之间的一一对应关系，并将该对应关系保存至场景信息集合中。其中，该语义标签可以为场景信息的索引信息，在查询场景信息集合时，可以以语义标签为索引，在该场合信息集合中查询语义标签对应的场景信息，以备后续使用。

在另一种可实现方式中，若执行上述步骤302和步骤303，则可以根据场景信息与场景向量的对应关系，以及语义标签与场景信息的对应关系，建立该场景信息集合，且该场景信息集合中记载有场景信息、场景向量与语义标签的对应关系。在查询场景信息集合时，可以以语义标签为索引，在该场合信息集合中查询语义标签对应的场景向量，以备后续使用。

需要说明的是，上述步骤301至步骤304为根据预设的场景信息和语义标签建立场景信息集合的过程。在获取第一对话信息对应的第一对话状态时，无需每次均执行步骤301至步骤304，也即是，在根据第一对话信息和目标场景信息获取第一对话状态时，可以直接查询该建立的场景信息集合，以确定第一对话信息对应的目标场景信息，并根据该目标场景信息确定第一对话状态。

综上所述，本发明实施例提供的一种对话状态确定方法，通过基于输入的对话信息确定该对话信息对应的目标场景信息，该目标场景信息能够体现产生对话信息的对话场景，并基于该对话信息和该目标场景信息，确定该对话信息在该对话场景中所对应的对话状态，相较于相关技术，能够减小相同的对话信息在不同的对话场景中存在多种不同的理解对确定对话状态所产生的干扰，因此，有效地提高了确定对话状态的准确性。根据该较准确的对话状态对对话信息进行应答时，能够提高用户对应答的满意度，进而提高用户体验。

并且，在获取第一对话信息后，根据该第一对话状态确定对应的对话状态的过程中无需人为干预，因此，该对话状态确定方法可较好地适用于闲聊等自由度较高的机器人。

图13是本发明实施例提供的一种对话状态确定装置的结构示意图，如图13所示，该装置800可以包括：

第一获取模块801，用于获取第一对话信息，第一对话信息为对话过程中输入的对话信息。

确定模块802，用于基于第一对话信息，确定第一对话信息对应的目标场景信息，目标场景信息用于指示第一对话信息的对话场景。

第二获取模块803，用于基于第一对话信息和目标场景信息，获取第一对话信息对应的第一对话状态，第一对话状态用于表征对第一对话信息进行应答时的应答模式。

可选地，场景信息由场景向量表征，每个场景向量用于表征对应场景信息与其他场景信息的关联关系，第二获取模块803，具体用于：

基于目标场景信息的场景向量，确定与目标场景信息存在关联关系的至少一个待选场景信息。

基于目标场景信息和至少一个待选场景信息，根据第一对话信息确定第一对话状态。

可选地，如图14所示，该装置800还可以包括：

第三获取模块804，用于获取多个场景信息的语义标签，语义标签用于标识场景信息所指示的对话场景的类型。

构建模块805，用于基于多个场景信息的语义标签构建至少一个场景网络，每个语义标签为至少一个场景网络中的一个网络节点。

构造模块806，用于根据至少一个场景网络构造多个场景向量，多个场景向量与多个场景信息一一对应。

可选地，构造模块806，具体用于：

根据至少一个场景网络中各个网络节点之间的连接关系，构造多个场景向量。

可选地，构造模块806根据至少一个场景网络中各个网络节点之间的连接关系，构造多个场景向量的实现过程，可以包括：

沿至少一个场景网络中的任一条路径进行游走，以得到多个节点序列，每个节点序列可以包括至少两个网络节点。

基于多个节点序列，确定每个网络节点与其他网络节点之间的相似度。

基于相似度构造多个场景向量。

可选地，确定模块802，具体用于：

基于第一对话信息，获取第一对话信息的语义理解内容。

基于语义理解内容，识别第一对话信息的语义标签。

基于语义标签，查询场景信息集合，确定目标场景信息，场景信息集合中记载有多个场景信息。

可选地，第一对话信息的语义标签为可以包括多个语义标签的标签集合，场景信息由场景向量表征，确定模块802基于语义标签，查询场景信息集合，确定目标场景信息的实现过程，可以包括：

基于多个语义标签，分别查询场景信息集合，得到与多个语义标签对应的至少一个场景向量。

当查询到的场景向量为多个时，对多个场景向量进行拼接，得到目标场景向量。

可选地，确定模块802，具体用于：

基于第一对话信息的语义标签查询场景信息集合，确定第一对话信息的第一场景信息。

获取在第一对话信息之前输入的第二对话信息所对应的第二场景信息。

基于第二场景信息和第一场景信息获取目标场景信息。

可选地，确定模块802基于第二场景信息和第一场景信息获取目标场景信息的实现过程，可以包括：

基于第二场景信息对第一场景信息进行调整，以得到目标场景信息。

可选地，第二获取模块803，具体用于：

获取在第一对话信息之前输入的第二对话信息的语义理解内容。

基于第二对话信息的语义理解内容、第一对话信息的语义理解内容和目标场景信息获取第一对话状态。

可选地，第二获取模块803基于第二对话信息的语义理解内容、第一对话信息的语义理解内容和目标场景信息获取第一对话状态的实现过程，可以包括：

将第一对话信息的语义理解内容和目标场景信息输入神经网络，由神经网络根据第二对话状态、第一对话信息的语义理解内容和目标场景信息，确定第一对话状态，第二对话状态由第二对话信息的语义理解内容确定。本发明实施例中，该神经网络可以是LSTM神经网络。

综上所述，本发明实施例提供的一种对话状态确定装置，通过确定模块基于输入的对话信息确定该对话信息对应的目标场景信息，该目标场景信息能够体现产生对话信息的对话场景，第二获取模块基于该对话信息和该目标场景信息，确定该对话信息在该对话场景中所对应的对话状态，相较于相关技术，能够减小相同的对话信息在不同的对话场景中存在多种不同的理解对确定对话状态所产生的干扰，因此，有效地提高了确定对话状态的准确性。根据该较准确的对话状态对对话信息进行应答时，能够提高用户对应答的满意度，进而提高用户体验。

并且，在获取第一对话信息后，根据该第一对话状态确定对应的对话状态的过程中无需人为干预，因此，该对话状态确定装置可较好地适用于闲聊等自由度较高的机器人。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图15示出了本发明一个示例性实施例提供的终端1300的结构示意图。该终端1300可以是便携式移动终端，比如：智能家居、智能车载、智能机器人、智能音箱、智能耳机、智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑等。终端1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1301所执行以实现本申请中方法实施例提供的对话状态确定方法。

在一些实施例中，终端1300还可选包括有：外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地，外围设备包括：射频电路1304、音频电路1305、定位组件1306和电源1307中的至少一种。本实施例中，外围设备还可以包括显示屏和摄像头组件等。在其他实施例中，终端1300也可以为不带显示屏和摄像头组件的设备，例如智能音箱和智能耳机等。

外围设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

音频电路1305可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1305还可以包括耳机插孔。

定位组件1306用于定位终端1300的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1306可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或伽利略系统的定位组件。

电源1307用于为终端1300中的各个组件进行供电。电源1307可以是交流电、直流电、一次性电池或可充电电池。当电源1307包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

当终端1300中包括显示屏时，该显示屏可以用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏是触摸显示屏时，显示屏还具有采集在显示屏的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏可以为一个，设置终端1300的前面板；在另一些实施例中，显示屏可以为至少两个，分别设置在终端1300的不同表面或呈折叠设计；在再一些实施例中，显示屏可以是柔性显示屏，设置在终端1300的弯曲表面上或折叠面上。甚至，显示屏还可以设置成非矩形的不规则图形，也即异形屏。显示屏可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

当终端1300中包括摄像头组件时，该摄像头组件可以用于采集图像或视频。可选地，摄像头组件包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

在一些实施例中，终端1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于：加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1311可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号，控制显示屏以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测终端1300的机体方向及转动角度，陀螺仪传感器1312可以与加速度传感器1311协同采集用户对终端1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313可以设置在终端1300的侧边框和/或显示屏的下层。当压力传感器1313设置在终端1300的侧边框时，可以检测用户对终端1300的握持信号，由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏的下层时，由处理器1301根据用户对显示屏的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置终端1300的正面、背面或侧面。当终端1300上设置有物理按键或厂商Logo时，指纹传感器1314可以与物理按键或厂商Logo集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中，处理器1301可以根据光学传感器1315采集的环境光强度，控制显示屏的显示亮度。具体地，当环境光强度较高时，调高显示屏的显示亮度；当环境光强度较低时，调低显示屏的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1315采集的环境光强度，动态调整摄像头组件的拍摄参数。

接近传感器1316，也称距离传感器，通常设置在终端1300的前面板。接近传感器1316用于采集用户与终端1300的正面之间的距离。在一个实施例中，当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变小时，由处理器1301控制显示屏从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变大时，由处理器1301控制显示屏从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图15中示出的结构并不构成对终端1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本发明实施例还提供了一种计算机可读存储介质，该存储介质为非易失性存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现如本申请上述实施例提供的对话状态确定方法。

本发明实施例还提供了一种计算机程序产品，该计算机程序产品中存储有指令，当其在计算机上运行时，使得计算机能够执行本发明实施例提供的对话状态确定方法。

本发明实施例还提供了一种芯片，该芯片包括可编程逻辑电路和/或程序指令，当该芯片运行时能够执行本发明实施例提供的对话状态确定方法。

在本发明实施例中，关系限定词“和/或”表示三种逻辑关系，A和/或B表示单独存在A、单独存在B以及同时存在A和B三种逻辑关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种对话状态确定方法，其特征在于，所述方法包括：

获取多个场景信息的语义标签，所述语义标签用于标识场景信息所指示的对话场景的类型；

基于所述多个场景信息的语义标签构建至少一个场景网络，每个语义标签为所述至少一个场景网络中的一个网络节点；

从所述至少一个场景网络中任选多个网络节点作为游走路径的起点，从每个起点开始游走时，将所述场景网络中所述起点邻域的任一个网络节点确定为游走到的点，以所述游走到的点为起点进行游走，直至游走的步数达到预设步数或者游走路径满足预设要求时停止游走，得到多个节点序列，每个节点序列包括至少两个网络节点；

基于所述多个节点序列，确定每个网络节点对应的语义标签所表达的语义与其他网络节点对应的语义标签所表达的语义之间的相似度，其中，两个网络节点出现在一个节点序列中的频率越高，且所述两个网络节点在所述节点序列中出现的距离越近，则所述两个网络节点的相似度越高；

基于所述相似度构造多个场景向量，所述多个场景向量与所述多个场景信息一一对应，每个场景向量用于表征对应场景信息与其他场景信息的关联关系；

获取第一对话信息，所述第一对话信息为对用户在对话过程中输入的对话信息进行分词、词性标注、命名实体识别、文本分类和情感分析处理得到的语义理解内容，所述分词用于将所述对话信息切分成词序列，所述词性标注用于标注所述对话信息中词的词性，所述命名实体识别用于在所述对话信息中定位并识别实体，所述文本分类用于将所述对话信息归入预定义类型中的一个或几个，所述情感分析用于确定所述对话信息所涉及话题的两极性观点；

基于所述目标场景信息对应的场景向量，确定与所述目标场景信息存在关联关系的至少一个待选场景信息；

获取在所述第一对话信息之前输入的第二对话信息的语义理解内容；

对于所述目标场景信息和所述至少一个待选场景信息中的每一个场景信息，基于所述第二对话信息的语义理解内容、所述第一对话信息的语义理解内容和所述场景信息获取所述场景信息对应的对话状态；

对每一个场景信息对应的对话状态进行逻辑运算，将逻辑运算的结果确定为第一对话状态，所述第一对话状态用于表征对所述第一对话信息进行应答时的应答模式。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一对话信息，确定所述第一对话信息对应的目标场景信息，包括：

基于所述语义理解内容，识别所述第一对话信息的语义标签；

基于所述语义标签，查询场景信息集合，确定所述目标场景信息，所述场景信息集合中记载有多个场景信息。

3.根据权利要求2所述的方法，其特征在于，所述第一对话信息的语义标签为包括多个语义标签的标签集合，所述基于所述语义标签，查询场景信息集合，确定所述目标场景信息，包括：

基于所述多个语义标签，分别查询所述场景信息集合，得到与所述多个语义标签对应的至少一个场景向量；

当查询到的场景向量为多个时，对所述多个场景向量进行拼接，得到目标场景向量。

4.根据权利要求2所述的方法，其特征在于，所述基于所述语义理解内容，识别所述第一对话信息的语义标签，包括：

采用推荐系统识别所述第一对话信息的语义标签，所述推荐系统用于根据输入的所述语义理解内容确定用户特点，根据用户特点与语义标签的对应关系确定所述第一对话信息的语义标签，所述用户特点与语义标签的对应关系由所述推荐系统根据用户输入的历史对话信息分析用户特点后建立；

或者，根据预设的规则集合识别所述第一对话信息的语义标签；

或者，采用分类器识别所述第一对话信息的语义标签，所述分类器用于根据输入的所述语义理解内容或者特征进行分析，将多个预设标签中的一个确定为所述第一对话信息的语义标签，所述特征根据所述语义理解内容获取。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一对话信息，确定所述第一对话信息对应的目标场景信息，包括：

基于所述第一对话信息的语义标签查询场景信息集合，确定所述第一对话信息的第一场景信息；

获取在所述第一对话信息之前输入的第二对话信息所对应的第二场景信息；

基于所述第二场景信息和所述第一场景信息获取所述目标场景信息。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第二场景信息和所述第一场景信息获取所述目标场景信息，包括：

基于所述第二场景信息对所述第一场景信息进行调整，以得到所述目标场景信息。

7.根据权利要求2-6任一所述的方法，其特征在于，所述第一对话信息对应多个语义标签，所述多个语义标签为从不同角度概括所述语义理解内容的主要内容的关键词，所述多个角度包括语义主体、情绪、用户群体、服务环境和物理环境，所述语义主体包括对话话题、对话领域、对话意图和对话实体概念。

8.一种对话状态确定装置，其特征在于，所述装置包括：

第三获取模块，用于获取多个场景信息的语义标签，所述语义标签用于标识场景信息所指示的对话场景的类型；

构建模块，用于基于所述多个场景信息的语义标签构建至少一个场景网络，每个语义标签为所述至少一个场景网络中的一个网络节点；

构造模块，用于从所述至少一个场景网络中任选多个网络节点作为游走路径的起点，从每个起点开始游走时，将所述场景网络中所述起点邻域的任一个网络节点确定为游走到的点，以所述游走到的点为起点进行游走，直至游走的步数达到预设步数或者游走路径满足预设要求时停止游走，得到多个节点序列，每个节点序列包括至少两个网络节点；基于所述多个节点序列，确定每个网络节点对应的语义标签所表达的语义与其他网络节点对应的语义标签所表达的语义之间的相似度，其中，两个网络节点出现在一个节点序列中的频率越高，且所述两个网络节点在所述节点序列中出现的距离越近，则所述两个网络节点的相似度越高；基于所述相似度构造多个场景向量，所述多个场景向量与所述多个场景信息一一对应，每个场景向量用于表征对应场景信息与其他场景信息的关联关系；

第一获取模块，用于获取第一对话信息，所述第一对话信息为对用户在对话过程中输入的对话信息进行分词、词性标注、命名实体识别、文本分类和情感分析处理得到的语义理解内容，所述分词用于将所述对话信息切分成词序列，所述词性标注用于标注所述对话信息中词的词性，所述命名实体识别用于在所述对话信息中定位并识别实体，所述文本分类用于将所述对话信息归入预定义类型中的一个或几个，所述情感分析用于确定所述对话信息所涉及话题的两极性观点；

第二获取模块，用于基于所述目标场景信息对应的场景向量，确定与所述目标场景信息存在关联关系的至少一个待选场景信息；获取在所述第一对话信息之前输入的第二对话信息的语义理解内容；对于所述目标场景信息和所述至少一个待选场景信息中的每一个场景信息，基于所述第二对话信息的语义理解内容、所述第一对话信息的语义理解内容和所述场景信息获取所述场景信息对应的对话状态；对每一个场景信息对应的对话状态进行逻辑运算，将逻辑运算的结果确定为第一对话状态，所述第一对话状态用于表征对所述第一对话信息进行应答时的应答模式。

9.根据权利要求8所述的装置，其特征在于，所述确定模块，用于基于所述语义理解内容，识别所述第一对话信息的语义标签；基于所述语义标签，查询场景信息集合，确定所述目标场景信息，所述场景信息集合中记载有多个场景信息。

10.根据权利要求9所述的装置，其特征在于，所述第一对话信息的语义标签为包括多个语义标签的标签集合，所述确定模块，用于基于所述多个语义标签，分别查询所述场景信息集合，得到与所述多个语义标签对应的至少一个场景向量；当查询到的场景向量为多个时，对所述多个场景向量进行拼接，得到目标场景向量。

11.根据权利要求8所述的装置，其特征在于，所述确定模块，用于基于所述第一对话信息的语义标签查询场景信息集合，确定所述第一对话信息的第一场景信息；获取在所述第一对话信息之前输入的第二对话信息所对应的第二场景信息；基于所述第二场景信息和所述第一场景信息获取所述目标场景信息。

12.根据权利要求11所述的装置，其特征在于，所述确定模块，用于基于所述第二场景信息对所述第一场景信息进行调整，以得到所述目标场景信息。

13.一种对话系统，其特征在于，所述系统包括：权利要求8-12任一所述的对话状态确定装置。

14.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的对话状态确定方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的对话状态确定方法。