CN113012687A

CN113012687A - 一种信息交互方法、装置及电子设备

Info

Publication number: CN113012687A
Application number: CN202110247302.9A
Authority: CN
Inventors: 赵瀚; 贾朝阳; 颜廷旭; 丁宁
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-22
Anticipated expiration: 2041-03-05
Also published as: CN113012687B

Abstract

本发明实施例公开了一种信息交互方法、装置及电子设备。在本实施例中，通过确定目标用户输入的当前语音对应的至少一个行为类型，抽取各所述行为类型中的实体词槽，并从各实体词槽对应的语句中召回所述当前语音对应的至少一个相似语句，至少各相似语句将输入至预先训练的意图确定模型中进行处理，以获取所述当前语音对应的意图，根据意图执行对应的操作并控制返回执行结果。由此，可以提高意图判断的准确性，并基于该意图做出正确的应答，进而可以提高用户体验感。

Description

一种信息交互方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种信息交互方法、装置及电子设备。

背景技术

对话管理指系统采用一定的方式引导对话，其主要任务根据用户输入，结合上下文语境和历史交互信息，识别当前对话意图，并基于对话意图执行下一步动作。在现有技术中，由于对话环境嘈杂、用户口音复杂、和/或模型训练语料不足，导致意图识别的准确率较低。

发明内容

有鉴于此，本发明实施例提供一种信息交互方法、装置及电子设备，以提高意图判断的准确性，并基于该意图做出正确的应答，进而可以提高用户体验感。

第一方面，本发明实施例提供一种信息交互方法，所述方法包括：

接收目标用户输入的当前语音；

确定所述当前语音对应的至少一个行为类型；

抽取各所述行为类型中的实体词槽；

从各所述实体词槽对应的语句中召回所述当前语音对应的至少一个相似语句；

将获取的当前特征信息输入至预先训练的意图确定模型中进行处理，获取所述当前语音对应的意图，所述当前特征信息至少包括各所述相似语句；

根据所述意图执行对应的操作并控制返回执行结果。

第二方面，本发明实施例提供一种信息交互装置，所述装置包括：

接收单元，被配置为接收目标用户输入的当前语音；

类型确定单元，被配置为确定所述当前语音对应的至少一个行为类型；

词槽抽取单元，被配置为抽取各所述行为类型中的实体词槽；

语句召回单元，被配置为从各所述实体词槽对应的语句中召回所述当前语音对应的至少一个相似语句；

意图确定单元，被配置为将获取的当前特征信息输入至预先训练的意图确定模型中进行处理，获取所述当前语音对应的意图，所述当前特征信息至少包括各所述相似语句；

执行单元，被配置为根据所述意图执行对应的操作并控制返回执行结果。

第三方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如本发明实施例第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如本发明实施例第一方面所述的方法。

第五方面，本发明实施例提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如本发明实施例第一方面所述的方法。

在本实施例中，通过确定目标用户输入的当前语音对应的至少一个行为类型，抽取各所述行为类型中的实体词槽，并从各实体词槽对应的语句中召回所述当前语音对应的至少一个相似语句，至少各相似语句将输入至预先训练的意图确定模型中进行处理，以获取所述当前语音对应的意图，根据意图执行对应的操作并控制返回执行结果。由此，可以提高意图判断的准确性，并基于该意图做出正确的应答，进而可以提高用户体验感。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的对话管理模块的示意图；

图2是本发明实施例的部分画板的示意图；

图3是本发明实施例的一种信息交互方法的流程图；

图4是本发明实施例的相似语句召回方法的流程图；

图5是本发明实施例的特征向量确定方法的流程图；

图6是本发明实施例的意图识别数据处理过程示意图；

图7是本发明实施例的信息交互系统的示意图；

图8是本发明实施例的信息交互装置的示意图；

图9是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在以下实施例中，主要以通过语音(例如电话或其他通话方式)打车的对话管理场景进行描述，应理解，本实施例并不对信息交互方法及意图识别方法进行限制，其可以应用于任意对话管理场景中，例如物流应用场景、网约车应用场景等。

本实施例主要以网约车应用场景为例进行具体描述，在当前网约车的应用中，通常通过智能设备中的APP进行网约车预定，而部分用户(例如老人等)不便或不会使用智能设备中APP，这导致了这部分用户难以打车的情况。因此，可以提供一种对话管理方法及对话管理系统，使得用户可以通过电话语音的形式下单。例如，具体过程可以为：用户通过拨打网约车预定对应的号码，在智能语音接通后，输入起始地和目的地等相关特征，智能服务端通过解析用户输入语音执行网约车预定操作，同时可以通过语音通话告知该用户司机接单情况、接单车辆信息、车辆预计到达时间、车辆到达状态，并确定用户是否安全上车或安全下车。由此，在网约车的对话应用场景中，准确识别用户输入语音及用户意图是至关重要的，否则无法确定用户的起始地和目的地，导致网约车预定失败。由此，可以采用本实施例提供的信息交互方法，以提高意图判断的准确性，并基于该意图做出正确的应答，进而可以提高用户体验感。

在一种可选的实现方式中，本发明实施例的信息交互系统可以包括对话管理模块和语义理解模块。其中，对话管理模块根据当前任务状态和历史交互信息等判断下一步有可能的状态转移。语义理解模块根据当前任务状态、历史交互信息以及用户当前语音识别出用户意图，控制对话管理模块做出相应的动作，并控制返回该意图对应的答复。

在本实施例中，对话管理模块基于有限状态机构建，也即本实施例基于状态机创建各信息交互状态之间的转移关系。对话管理模块的结构由画板(graph)、子图流(flow)、节点(node)和边(edge)构成，其中，画板对应整个项目，子图流对应一个技能，节点代表要执行的相应动作，边对应判断条件。可选的，当用户与信息交互系统进行交互时，对话管理模块维护该用户的状态，例如对话管理模块把该用户的信息、当前任务状态以及历史交互信息存储至数据库的缓存中，当该用户与信息交互系统再次交互时，对话管理模块调用并参考该用户的信息、当前任务状态以及历史交互信息，基于预先设置的画板和语义理解模块返回的意图经过对应的边流向下一个节点，也即转移到下一个状态。

图1是本发明实施例的对话管理模块的示意图。如图1所示，对话管理模块1通过用户管理单元11和用户状态跟踪单元12获取用户终端发送的语音信息以及目标任务的当前状态，确定当前状态对应的节点n1。并且，对话管理模块1通过调用语义理解模块2对获取的语音信息进行语义识别，获取对应的语义识别结果(也即语音信息对应的意图)。也即，对话管理模块1向语义理解模块2发送语义识别请求，语义理解模块2响应于语义识别请求对语音信息进行语义识别，获取对应的语义识别结果，并向对话管理模块1返回该语义识别结果。对话管理模块1根据语义识别结果对应的意图以及节点之间的条件信息移动节点，并更新目标任务的状态。如图4所示，基于语义识别结果对应的意图以及节点之间的条件信息将节点n2确定为当前节点。同时，对话管理模块1将状态更新信息发送至状态跟踪单元13，状态跟踪单元13将新的状态发送至用户管理单元11，以使得用户管理单元11更新并保存目标任务的新状态。并且，对话管理模块1根据语义识别结果对应的意图执行对应的动作，并返回对应的答复。同时，系统通过记录状态转移的轨迹信息以获取轨迹列表。其中，可以根据目标任务对应的轨迹列表确定该目标任务的状态转移过程，以便后续对该目标任务进行校验等操作。

由此，本实施例通过基于有限状态机创建各信息交互状态之间的转移关系，可以提高状态跳转的准确性，进而可以提高用户体验感。

图2是本发明实施例的部分画板的示意图。如图2所示，以通过通话打车的“确认上车”部分为例进行说明，其中，在节点21处通过信息交互确定用户是否上车。其中，节点21对应的状态可以包括未上车、已上车和其它，“其它”用于表征未能从用户输入语音中得出是否上车的判断结果。在节点21处的状态判断结果为“已上车”时，控制返回“已上车结束语”，例如“确认您已上车，请您注意安全”等。在节点21处的状态判断结果为“未上车”时，控制返回“未上车结束语”，例如“车辆已到达，请您尽快上车”等。在在节点21处的状态判断结果为“其它”时，控制返回“其它情况话术”，例如再次确认用户是否上车的话术，在根据用户输入的语音确定该用户是否上车。若此次确认的状态判断结果为“已上车”时，控制返回“已上车结束语”。若此次确认的状态判断结果为“未上车”时，控制返回“未上车结束语”。若此次确认的状态判断结果仍为“其它”，返回“转人工结束语”，例如“未能识别您的意图，正在为您跳转人工客服”等。由此，本实施例通过基于有限状态机创建各信息交互状态之间的转移关系，可以提高状态跳转的准确性，进而可以提高用户体验感。

图3是本发明实施例的一种信息交互方法的流程图。如图3所示，本发明实施例的信息交互方法包括以下步骤：

步骤S110，接收目标用户输入的当前语音。以网约车应用场景的约车过程中，在建立用户终端和服务端的通话连接后，用户通过用户终端向服务端发送语音“我要打车，从A地去B地”。可选的，用户可以通过用户终端拨打网约车固定电话以建立与服务端的通话连接，也可以通过网约车APP或其他APP中嵌入的网约车小程序拨打网络电话以建立与服务端的通话连接，本实施例并不对此进行限制。

步骤S120，确定当前语音对应的至少一个行为类型。以网约车应用场景为例行为类型可以包括网约车任务中的各类场景，例如，约车场景、修改订单场景、取消订单场景、查询订单场景等。

在一种可选的实现方式中，步骤S120具体可以为：将当前语音对应的文本信息输入至类型确定模型中进行处理，获取当前语音所属的行为类型。

可选的，在本实施例中，通过ASR(Automatic Speech Recognition，自动语音识别方法)对当前语音进行语音识别，获取当前语音对应的文本信息。进一步可选的，由于环境噪音或者用户口音问题等原因可能导致通过当前语音直接识别出的文本信息存在错误。因此，在本实施例中，采用ASR对当前语音进行语音识别，获取当前语音对应的初始文本，对初始文本进行矫正，获取当前语音对应的文本信息。可选的，对初始文本进行矫正包括纠错和去除停用词，纠错是识别到的文本出现的错误，本实施例采用基于n-gram算法的纠错模型对初始文本进行纠错。去除停用词是把一些标点符号和对语义理解没有作用的语气词删除。由此，可以提高获取的文本信息的准确性，进而提高意图识别的准确性。

在另一种可选的实现方式中，步骤S120具体可以为：将当前语音对应的文本信息，该文本信息的拼音的特征向量、该文本信息中的各个字的特征向量和随机初始化字向量输入至类型确定模型中进行处理，获取当前语音所属的预定数量个行为类型。本实施例通过加入文本信息的拼音的向量来避免识别出的文本信息可能出现的错别字造成的准确率下降的问题，并通过加入预训练好的文本信息中的各个字的特征向量和随机初始化字向量来解决OOV问题(例如出现未登记词)，增强了类型确定模型的泛化能力，从而可以提高类型确定模型的类型识别准确性，进而可以提高后续意图识别的准确性。

在一种可选的实现方式中，类型识别模型通过类型训练数据预先训练获得，其中，类型训练数据可以包括各行为类型内的语音数据及各语音数据的类型标签。在另一种可选的实现方式中，在类型识别模型的训练过程中，加入语音数据对应的文本的拼音向量、预训练的各个字的字向量以及随机初始化的字向量，以提高数据识别的准确性、增强模型的泛化能力。

可选的，本实施例的类型识别模型为TextCNN模型，以平衡数据处理效率和识别效果。在其他可选的实现方式中，还可以采用RNN模型等来进行类型分类，本实施例并不对模型的类型进行限制。

在本实施例中，TextCNN模型包括输入层(也即词嵌入层)、卷积层、池化层和全连接层(分类)。可选的，在本实施例中，将一个实体整体作为一个分词输入至词嵌入层，获取词向量，以增强模型对于特定类型的识别性能。可选的，在本实施例中，池化层采用k-max-pooling，以获取更多的局部信息，输出k个行为类型及其对应的得分。可选的，k可以为3，应理解，k的值可以根据具体应用领域进行设置，本实施例并不对此进行限制。

步骤S130，从各行为类型中获取当前语音对应的实体词槽。可选的，在本实施例的词槽抽取过程中，采用BIO标记法进行序列标注，以减少引入的标签类型，提高数据处理效率。其中，B表示名词短语的开头，I表示名词短语的中间，O表示不是名词短语。应理解，也可以采用其他序列标注方法，例如BIOES等进行序列标注，本实施例并不对此进行限制。

在一种可选的实现方式中，根据词槽抽取模型对各行为类型中的语句进行词槽抽取，获取当前语音对应的多个实体词槽。可选的，根据词槽抽取模型对各行为类型中的语句进行词槽抽取，获取多个实体词槽，并基于当前语音对获取的多个实体词槽进行筛选，以获取当前语音对应的多个实体词槽。例如，对当前语音的文本信息进行分词，获取实体词，将当前语音的实体词与抽取的实体词槽进行语义相似度计算，将相似度满足条件的实体词槽确定为当前语音对应的实体词槽。以网约车应用场景中的约车行为类型为例，该类型中的语句可以包括“我要打车从A地到B地”，“我要打车”，“我要去B地”，“我要去火车站旁边的广场”，其抽取获得的实体词槽可以包括“打车”、“A地”、“B地”、“火车站”、“广场”等。若当前语音为“打车从A地去火车站”，则当前语音对应的实体词槽可以包括“打车”、“火车站”等。

序列标注是自然语音处理的基本任务，包括词性标注、中文分词和槽位识别等。可选的，本实施例的词槽抽取模型为Bert-Crf模型。其中，通过对预训练后的Bert模型进行微调，并与Crf进行结合，可以提高序列标注的效果。以网约车应用场景为例，可以获取网约车任务创建及执行过程中的服务端和用户端之间的语音交互数据，获取训练语料，以对预训练后的Bert模型进行微调。由于预训练后的Bert模型已经在高维空间学习到了大量的语音信息，因此仅需要少量的训练语料就可以在对应的类型达到很好的效果。

步骤S140，从各实体词槽对应的语句中召回当前语音对应的至少一个相似语句。

图4是本发明实施例的相似语句召回方法的流程图。在一种可选的实现方式中，步骤S140包括：

步骤S141，获取第一特征向量。其中，第一特征向量表征当前语音对应的文本信息的特征向量。可选的，通过对当前语音进行处理，获取当前语音对应的输入文本信息。在一种可选的实现方式中，基于自动语音识别方法(例如ASR等)确定当前语音对应的初始文本，对初始文本进行矫正，获取当前语音对应的输入文本信息。可选的，对初始文本进行矫正包括纠错和去除停用词，纠错是识别到的文本出现的错误，本实施例采用基于n-gram算法的纠错模型对初始文本进行纠错。去除停用词是把一些标点符号和对语义理解没有作用的语气词删除。

图5是本发明实施例的特征向量确定方法的流程图。在一种可选的实现方式中，如图5所示，步骤S141包括：

步骤S141A，将当前语音对应的文本信息输入至第一向量计算模型中进行处理，获取第一向量。可选的，第一向量计算模型为基于BM25算法的模型。在本实施例中，根据BM25算法的模型确定输入文本信息基于表征信息统计的特征向量，可以降低计算量，提高数据处理速度。BM25算法是一种用来评价搜索词与文档之间相关性的算法，其为基于概率检索模型提出的算法。

步骤S141B，将当前语音对应的文本信息输入至第二向量计算模型中进行处理，获取第二向量。可选的，第二向量计算模型一种通过无监督学习得到的深度学习模型。可选的，第二向量计算模型为基于Bert-Ada算法的模型。基于Bert-Ada算法的模型为通过可微神经架构搜索(Differentiable Neural Architecture Search,DNAS)将Bert模型进行压缩形成的任务自适应的小模型，可以根据所要执行的任务调整小模型的结构和知识。由此，可以在特征向量的语义表达能力的同时，降低模型的复杂程度，提高数据处理效率。

步骤S141C，将第一向量和第二向量进行拼接，获取第一特征向量。

由此，本实施例通过将基于表征信息统计的特征向量与基于深度语义向量表示的特征向量进行拼接，获取当前语音对应的文本信息的特征向量，由此，可以进一步提高特征向量的语义表达能力，进而可以提高意图识别的准确度。

步骤S142，获取多个第二特征向量。其中，多个第二特征向量分别表征各实体词槽对应的语句的特征向量，或者多个第二特征向量分别表征意图语句库中各语句的特征向量。意图语句库中存储有各意图对应的至少一个语句。每个意图具有对应的至少一个语句。例如，表达“已上车”的意图，可以包括“嗯，我在车上了”、“嗯，我上车了”、“是的，已经上车了”、“对啊，车已经开了”等等。

可选的，可以获取意图语句库中的所有语句，以提高准确率，也可以从意图语句库中获取包括至少一个当前语音对应的实体词槽的语句，以减小计算量。可选的，意图语句库中的各语句的特征向量可以基于与步骤S141A-S141C类似的方法预先确定并存储，在此不再赘述。

步骤S143，计算第一特征向量分别与各第二特征向量之间的相似度。可选的，可以通过计算第一特征向量分别与各第二特征向量之间的余弦相似度、欧式距离、切比雪夫距离、曼哈顿距离等来计算对应的相似度，也可以根据神经网络模型来计算第一特征向量分别与各第二特征向量之间的相似度，本实施例并不对此进行限制。

步骤S144，根据各相似度召回至少一个相似语句。在一种可选的实现方式中，对意图数据库中的各语句或者对各获取实体词槽对应的各语句按照相似度从大到小进行排序，获取相似度最高的k个语句作为相似语句，k大于等于1。

由此，本实施例通过计算当前语音对应的文本信息分别与获取的各实体词槽对应的语句(或意图语句库中的各语句)的相似度，召回至少一个相似语句，提高了召回效率。

步骤S150，将获取的当前特征信息输入至预先训练的意图确定模型中进行处理，获取所述当前语音对应的意图，所述当前特征信息至少包括各相似语句和各实体词槽信息。可选的，实体词槽信息可以包括实体词槽及其在词槽抽取模型中对应的得分。

在一种可选的实现方式中，当前特征信息还包括当前语音对应的文本信息、当前语音多属的各行为类型及对应的得分、各相似语句的相似度排序信息(也即召回步骤S140中计算的文本信息与各相似语句的相似度排序信息)。本实施例根据基于粗粒度的行为类型分类的分类结果、当前语音对应的实体词槽的抽取结果、以及文本相似度计算结果进行后验排序，获取当前语音对应的意图，由此，可以提高意图识别的准确性。

在另一种可选的实现方式中，当前特征信息还包括目标任务的当前任务状态和目标任务对应的历史交互信息。以网约车为例，目标任务的当前任务状态可以包括派单状态、司机已接单状态、已上车状态和已下车状态等。以当前任务状态为“已上车状态”，历史交互信息包括用户打通网约车预定的号码后的对话记录，例如网约车预定对话“我在xx小区东门，要去xx大学西门”，“好的，正在为您派单”，“乘客您好，车牌号为xxxx的白色xx车已接单，当前距您1km，请留意”，“乘客您好，您预约的网约车已到达上车点，请您确定是否已上车”等。由此，本实施例可以根据目标任务的当前任务状态和目标任务对应的历史交互信息进一步提高意图识别的准确性，进而进一步提高用户体验感。

可选的，本实施例的意图确定模型为ensemble模型。ensemble模型是一种模型集成框架，其包括多种分类器，各分类器可以是不同的机器学习方法，也可以是相同的机器学习方法，各分类器可以是互补的，拒用自己的位置。由此，在本实施例中，将当前语音对应的文本信息、获取的各行为类型及其对应的得分、获取的实体词槽及其对应的得分、获取的相似语句及其对应的相似度大小、目标任务的当前任务状态和目标任务对应的历史交互信息输入至ensemble模型，通过ensemble模型中的各分类器对各特征信息进行处理，以对各相似语句进行综合排序，输出得分最高的相似语句对应的意图。由此，可以进一步提高意图识别的准确性，进而提高用户体验感。

步骤S160，根据意图执行对应的操作并控制返回执行结果。以网约车应用场景为例，假设步骤S160获取的意图为“查询订单状态”，则执行查询订单的操作，并控制向用户终端返回查询到的订单状态，例如“您的订单正在派单中”，或者“您的订单已由司机xxx接单，司机当前距您1km，预计2分钟后到达”等。再例如假设步骤S160获取的意图为“已上车”，则向目标用户返回“已上车结束语”，例如“确认您已上车，请您注意安全”等。

在一种可选的实现方式中，本实施例的信息交互方法还包括：根据获取意图和目标任务的当前任务状态跳转至新的任务状态。以网约车应用场景为例，假设获得的意图为“已上车”，则将目标任务的当前任务状态跳转至新的节点，对应的状态可以包括“已下车”、“未下车”和其它。

图6是本发明实施例的意图识别数据处理过程示意图。如图6所示，以网约车应用场景为例，在用户通过用户终端拨打网约车固定电话，在电话接通后，输入当前语音。服务端中的语音识别单元61对用户输入的当前语音进行语音识别，获取当前语音对应的文本信息“我要打车从A地去B地”，类型确定模型62根据文本信息确定对应的行为类型，包括“约车行为类型”、“订单查询行为类型”和“订单修改行为类型”。其中，类型确定模型62确定该文本信息属于各行为类型的可能性(也即得分)，输出得分最高的前三个行为类型。词槽抽取模型63对各行为类型中的语句进行词槽抽取，获取多个实体词槽，并基于当前语音对获取的多个实体词槽进行筛选，以获取当前语音对应的多个实体词槽，包括“约车”、“A地”、“B地”等。语句获取单元64获取实体词槽“约车”、“A地”、“B地”等对应的语句，包括“我要打车从A地去B地”、“我要查询从A地去B地的订单”、“我要修改从A地去B地的订单”等。语句召回模型65对当前语音的文本信息和各语句进行相似度计算，根据相似度大小对各语句进行排序，获取相似度最高的K个语句，包括“我要打车从A地去B地”、“我要打车去”、“从A地去B地”等。ensemble模型66对输入的相似语句及对应的相似度大小、当前语音对应的文本信息、获取的各行为类型及其对应的得分、获取的实体词槽及其对应的得分、当前任务状态、历史交互信息进行处理，输出对应的意图，也即“约车：从A地到B地”。执行单元67根据该意图创建网约车订单，并将执行结果返回至用户终端68，例如向用户终端发送“已为您创建从A地到B地的订单，正在派单中”的语音播报信息。

图7是本发明实施例的信息交互系统的示意图。如图7所示，本发明实施例的信息交互系统7包括对话管理模块71和语义理解模块72。其中，对话管理模块71用于接收用户终端发送的当前语音，并基于语义理解模块72确定的意图确定该意图对应的答复，也即目标语音，将目标语音发送至用户终端。语义理解模块72根据当前任务状态、历史交互信息以及用户当前语音识别出用户意图，控制对话管理模块做出相应的动作，并控制返回该意图对应的答复。其中，语义理解模块72可以基于上述步骤S110-步骤S150确定当前输入语句对应的意图，在此不再赘述。

图8是本发明实施例的信息交互装置的示意图。如图8所示，本发明实施例的信息交互装置8包括接收单元81、类型确定单元82、词槽抽取单元83、语句召回单元84、意图确定单元85和执行单元86。

接收单元81被配置为接收目标用户输入的当前语音。

类型确定单元82被配置为确定所述当前语音对应的至少一个行为类型。在一种可选的实现方式中，类型确定单元82包括进一步被配置为将所述当前语音对应的文本信息输入至类型确定模型中进行处理，获取所述当前语音所属的预定数量个行为类型。在另一种可选的实现方式中，类型确定单元82包括进一步被配置为将所述当前语音对应的文本信息，所述文本信息的拼音的特征向量、所述文本信息中的各个字的特征向量和随机初始化字向量输入至类型确定模型中进行处理，获取所述当前语音所属的预定数量个行为类型。

词槽抽取单元83被配置为抽取各所述行为类型中的实体词槽。在一种可选的实现方式中，词槽抽取单元83进一步被配置为根据词槽抽取模型对各所述行为类型中的语句进行词槽抽取，获取多个所述实体词槽。

语句召回单元84被配置为从各所述实体词槽对应的语句中召回所述当前语音对应的至少一个相似语句。

在一种可选的实现方式中，语句召回单元84包括第一向量获取子单元、第二向量获取子单元、相似度计算子单元和语句召回子单元。第一向量获取子单元被配置为获取第一特征向量，所述第一特征向量表征所述当前语音对应的文本信息的特征向量。第二向量获取子单元被配置为获取多个第二特征向量，多个所述第二特征向量分别表征各所述实体词槽对应的语句的特征向量或者表征意图语句库中各语句的特征向量。相似度计算子单元被配置为计算所述第一特征向量分别与各所述第二特征向量之间的相似度。语句召回子单元，被配置为根据各所述相似度召回至少一个所述相似语句。

在一种可选的实现方式中，第一向量获取子单元包括第一向量获取模块、第二向量获取模块和第一特征向量获取模块。第一向量获取模块被配置为将所述当前语音对应的文本信息输入至第一向量计算模型中进行处理，获取第一向量。第二向量获取模块被配置为将所述当前语音对应的文本信息输入至第二向量计算模型中进行处理，获取第二向量。第一特征向量获取模块被配置为将所述第一向量和所述第二向量进行拼接，获取所述第一特征向量。

意图确定单元85被配置为将获取的当前特征信息输入至预先训练的意图确定模型中进行处理，获取所述当前语音对应的意图，所述当前特征信息至少包括各所述相似语句。可选的，所述当前特征信息还包括所述当前语音对应的文本信息、各所述行为类型及对应的得分、各所述相似语句的相似度排序信息。可选的，所述当前特征信息还包括目标任务的当前任务状态和所述目标任务对应的历史交互信息。

执行单元86被配置为根据所述意图执行对应的操作并控制返回执行结果。

在一种可选的实现方式中，信息交互装置8还包括语音处理单元。语音处理单元被配置为对所述当前语音进行处理，获取所述当前语音对应的文本信息。可选的，所述语音处理单元包括语音识别子单元和矫正子单元。语音识别子单元被配置为采用语音识别方法对所述当前语音进行语音识别，获取对应的初始文本。矫正子单元，被配置为对所述初始文本进行矫正，获取所述文本信息。

在一种可选的实现方式中，信息交互装置8还包括状态转移单元。状态转移单元被配置为根据所述意图和目标任务的当前任务状态跳转至新的任务状态。

在一种可选的实现方式中，信息交互装置8还包括转移关系创建单元。转移关系创建单元被配置为基于状态机创建各信息交互状态之间的转移关系。

图9是本发明实施例的电子设备的示意图。如图9所示，电子设备9为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器91和存储器92。处理器91和存储器92通过总线93连接。存储器92适于存储处理器91可执行的指令或程序。处理器91可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器91通过执行存储器92所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线93将上述多个组件连接在一起，同时将上述组件连接到显示控制器94和显示装置以及输入/输出(I/O)装置95。输入/输出(I/O)装置95可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置95通过输入/输出(I/O)控制器96与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述部分或全部的方法实施例。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例公开了TS1、一种信息交互方法，所述方法包括：

接收目标用户输入的当前语音；

确定所述当前语音对应的至少一个行为类型；

从各所述行为类型中获取所述当前语音对应的实体词槽；

召回所述当前语音对应的至少一个相似语句；

将获取的当前特征信息输入至预先训练的意图确定模型中进行处理，获取所述当前语音对应的意图，所述当前特征信息至少包括各所述相似语句和各所述实体词槽信息；

根据所述意图执行对应的操作并控制返回执行结果。

TS2、根据TS1所述的方法，确定所述当前语音对应的至少一个行为类型包括：

将所述当前语音对应的文本信息输入至类型确定模型中进行处理，获取所述当前语音所属的预定数量个行为类型。

TS3、根据TS1所述的方法，确定所述当前语音对应的至少一个行为类型包括：

将所述当前语音对应的文本信息，所述文本信息的拼音的特征向量、所述文本信息中的各个字的特征向量和随机初始化字向量输入至类型确定模型中进行处理，获取所述当前语音所属的预定数量个行为类型。

TS4、根据TS1所述的方法，从各所述行为类型中获取所述当前语音对应的实体词槽包括：

根据词槽抽取模型对各所述行为类型中的语句进行词槽抽取，获取多个所述实体词槽。

TS5、根据TS1所述的方法，召回所述当前语音对应的至少一个相似语句的信息包括：

获取第一特征向量，所述第一特征向量表征所述当前语音对应的文本信息的特征向量；

获取多个第二特征向量，多个所述第二特征向量分别表征各所述实体词槽对应的语句的特征向量或者表征意图语句库中各语句的特征向量；

计算所述第一特征向量分别与各所述第二特征向量之间的相似度；

根据各所述相似度召回至少一个所述相似语句。

TS6、根据TS5所述的方法，获取第一特征向量包括：

将所述当前语音对应的文本信息输入至第一向量计算模型中进行处理，获取第一向量；

将所述当前语音对应的文本信息输入至第二向量计算模型中进行处理，获取第二向量；

将所述第一向量和所述第二向量进行拼接，获取所述第一特征向量。

TS7、根据TS1-TS6中任一项所述的方法，所述当前特征信息还包括所述当前语音对应的文本信息、各所述行为类型及对应的得分、各所述相似语句的相似度排序信息。

TS8、根据TS1-TS7中任一项所述的方法，所述当前特征信息还包括目标任务的当前任务状态和所述目标任务对应的历史交互信息。

TS9、根据TS1-TS8中任一项所述的方法，所述方法还包括：

对所述当前语音进行处理，获取所述当前语音对应的文本信息。

TS10、根据TS9所述的方法，对所述当前语音进行处理，获取所述当前语音对应的文本信息包括：

采用语音识别方法对所述当前语音进行语音识别，获取对应的初始文本；

对所述初始文本进行矫正，获取所述文本信息。

TS11、根据TS1所述的方法，所述方法还包括：

根据所述意图和目标任务的当前任务状态跳转至新的任务状态。

TS12、根据TS1所述的方法，所述方法还包括：

基于状态机创建各信息交互状态之间的转移关系。

本发明实施例公开了TS13、一种信息交互装置，所述装置包括：

接收单元，被配置为接收目标用户输入的当前语音；

TS14、根据TS13所述的装置，所述类型确定单元包括进一步被配置为将所述当前语音对应的文本信息输入至类型确定模型中进行处理，获取所述当前语音所属的预定数量个行为类型。

TS15、根据TS13所述的装置，所述类型确定单元包括进一步被配置为将所述当前语音对应的文本信息，所述文本信息的拼音的特征向量、所述文本信息中的各个字的特征向量和随机初始化字向量输入至类型确定模型中进行处理，获取所述当前语音所属的预定数量个行为类型。

TS16、根据TS13所述的装置，所述词槽抽取单元进一步被配置为根据词槽抽取模型对各所述行为类型中的语句进行词槽抽取，获取多个所述实体词槽。

TS17、根据TS13所述的装置，所述语句召回单元包括：

第一向量获取子单元，被配置为获取第一特征向量，所述第一特征向量表征所述当前语音对应的文本信息的特征向量；

第二向量获取子单元，被配置为获取多个第二特征向量，多个所述第二特征向量分别表征各所述实体词槽对应的语句的特征向量或者表征意图语句库中各语句的特征向量；

相似度计算子单元，被配置为计算所述第一特征向量分别与各所述第二特征向量之间的相似度；

语句召回子单元，被配置为根据各所述相似度召回至少一个所述相似语句。

TS18、根据TS17所述的装置，所述第一向量获取子单元包括：

第一向量获取模块，被配置为将所述当前语音对应的文本信息输入至第一向量计算模型中进行处理，获取第一向量；

第二向量获取模块，被配置为将所述当前语音对应的文本信息输入至第二向量计算模型中进行处理，获取第二向量；

第一特征向量获取模块，被配置为将所述第一向量和所述第二向量进行拼接，获取所述第一特征向量。

TS19、根据TS13-TS18中任一项所述的装置，所述当前特征信息还包括所述当前语音对应的文本信息、各所述行为类型及对应的得分、各所述相似语句的相似度排序信息。

TS20、根据TS13-TS19中任一项所述的装置，所述当前特征信息还包括目标任务的当前任务状态和所述目标任务对应的历史交互信息。

TS21、根据TS13-TS20中任一项所述的装置，所述装置还包括：

语音处理单元，被配置为对所述当前语音进行处理，获取所述当前语音对应的文本信息。

TS22、根据TS21所述的装置，所述语音处理单元包括：

语音识别子单元，被配置为采用语音识别方法对所述当前语音进行语音识别，获取对应的初始文本；

矫正子单元，被配置为对所述初始文本进行矫正，获取所述文本信息。

TS23、根据TS13所述的装置，所述装置还包括：

状态转移单元，被配置为根据所述意图和目标任务的当前任务状态跳转至新的任务状态。

TS24、根据TS13所述的装置，所述装置还包括：

转移关系创建单元，被配置为基于状态机创建各信息交互状态之间的转移关系。

本发明实施例公开了TS25、一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如TS1-TS12中任一项所述的方法。

本发明实施例公开了TS26、一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如TS1-TS12任一项所述的方法。

本发明实施例公开了TS27、一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如TS1-TS12中任一项所述的方法。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息交互方法，其特征在于，所述方法包括：

接收目标用户输入的当前语音；

确定所述当前语音对应的至少一个行为类型；

从各所述行为类型中获取所述当前语音对应的实体词槽；

召回所述当前语音对应的至少一个相似语句；

根据所述意图执行对应的操作并控制返回执行结果。

2.根据权利要求1所述的方法，其特征在于，确定所述当前语音对应的至少一个行为类型包括：

3.根据权利要求1所述的方法，其特征在于，确定所述当前语音对应的至少一个行为类型包括：

4.根据权利要求1所述的方法，其特征在于，从各所述行为类型中获取所述当前语音对应的实体词槽包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述当前特征信息还包括所述当前语音对应的文本信息、各所述行为类型及对应的得分、各所述相似语句的相似度排序信息。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述当前特征信息还包括目标任务的当前任务状态和所述目标任务对应的历史交互信息。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-7中任一项所述的方法。