CN111971670A

CN111971670A - 在对话中生成响应

Info

Publication number: CN111971670A
Application number: CN201880092289.0A
Authority: CN
Inventors: 马永芳; 高下康浩; 徐粲; 胡煌; 坪井一菜; 三芳三奈
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2020-11-20
Also published as: WO2020087534A1

Abstract

本公开内容提供了用于在对话中生成响应的方法和装置。可以从至少一个信号源接收至少一个信号。可以基于至少一个接收的信号来生成文本信息。可以至少基于所述文本信息来确定响应模式。在一些实现中，响应模式可以指示要生成的响应的表达风格。可以至少基于所述文本信息和所述响应模式来生成响应。

Description

在对话中生成响应

背景技术

人工智能(AI)聊天机器人正变得越来越流行，并且正在应用于越来越多的场景中。聊天机器人被设计成模拟与人的对话，并且可以通过文本、语音、图像等来与用户聊天。通常，聊天机器人可以扫描用户输入的消息中的关键字或者对消息应用自然语言处理，以及向用户提供具有最匹配关键字或最相似措辞模式的响应。

发明内容

提供本发明内容以便对下文在具体实施方式中进一步描述的设计构思的选择进行介绍。本发明内容并不旨在确定要求保护的发明主题的关键特征或重要特征，也不旨在用于限制要求保护的发明主题的范围。

本公开内容的实施例提出了用于在对话中生成响应的方法和装置。可以从至少一个信号源接收至少一个信号。可以基于至少一个接收的信号来生成文本信息。可以至少基于所述文本信息来确定响应模式。所述响应模式可以指示要生成的响应的表达风格。可以至少基于所述文本信息和所述响应模式来生成响应。

应该注意的是：上述一个或多个方面包括在下文中充分描述并在权利要求书中具体指出的特征。下文的描述和附图详细阐述了一个或多个方面的某些说明性的特征。这些特征仅指示各种方面的原理可以在其中使用的各种方式，并且本公开内容旨在包括所有这些方面以及它们的等价物。

附图说明

将结合附图在下文中对所公开的方面进行描述，提供附图是为了对所公开的方面进行说明而非进行限定。

图1是根据实施例的对话的示例性实现架构。

图2根据实施例示出了用于基于接收的信号生成响应的示例性一般过程。

图3是根据实施例的示例性响应生成系统的框图。

图4根据实施例示出了示例性响应模式确定模型。

图5根据实施例示出了具有文本关注模型的示例性响应生成模型。

图6根据实施例示出了用于基于语音信号或文本信号生成响应的示例性过程。

图7根据实施例示出了用于基于图像信号生成响应的示例性过程。

图8根据实施例示出了示例性空间关注模型。

图9根据实施例示出了示例性自适应关注模型。

图10根据实施例示出了用于基于音频信号生成响应的示例性过程。

图11根据实施例示出了用于基于图像信号和音频信号来生成响应的示例性过程。

图12根据实施例示出了用户与聊天机器人之间的对话的示例性对话窗口。

图13根据实施例示出了用于在对话中生成响应的示例性方法的流程图。

图14根据实施例示出了用于在对话中生成响应的示例性装置。

图15根据实施例示出了用于在对话中生成响应的示例性装置。

具体实施方式

现在将参考若干示例实现来讨论本公开内容。应当理解的是：讨论这些实现仅仅是为了使本领域技术人员能够更好地理解并因此实现本公开内容的实施例而不是建议对本公开内容的范围的任何限制。

聊天机器人可以与用户进行各种对话，例如与用户进行闲聊，执行用户所请求的任务等。通常，聊天机器人可以随机地开始话题或者仅根据对话历史来维持话题，而不考虑环境信号和对话模式或表达风格。因此，聊天机器人对于对话中的另一个参与者(例如，人)可能不太友好。

在许多情况下，例如，在闲聊情况下，当用户感到无聊或孤独时，希望聊天机器人可以陪伴用户。因此，聊天机器人可以被设计为具有对于谈话提出有吸引力的话题的能力，以便对人类用户更加友好。此外，考虑到在人对人的闲聊中，话题可能由人基于环境信号来高度触发(例如，当人看到或听到有趣的事物时)，对话模式或表达风格可能在对话期间变化，还希望使聊天机器人具有与人类相似的行为。

本公开内容的实施例提出了用于通过考虑对话中的用户信号和环境信号二者并且考虑指示要生成的响应的表达风格的响应模式来生成响应的方法和装置。

本文中公开的示例针对在客户端设备上实现交互式聊天机器人的方法和装置。通过所公开的示例，客户端设备可以配备有聊天机器人，该聊天机器人能够理解和解释从用户和/或环境接收的信号，并且能够确定指示要生成的响应的表达风格的响应模式(其与发生在人和人之间的对话中的响应模式类似)，以便至少基于所接收的信号和响应模式来生成响应。

为了创建智能聊天机器人，本文中公开的示例可以捕捉客户端设备上的各种相关用户和环境信号，并将捕捉的用户和环境信号传送给聊天服务器以确定响应模式，并至少基于该响应模式和接收的信号来生成响应。

信号的示例可以包括但不限于：来自用户的语音信号、来自环境的图像信号、以及来自环境的任何音频信号，例如包括来自其它用户的语音信号和/或来自环境的噪声的背景声音信号。在本文中，“环境信号”指的是与由计算设备的一个或多个传感器或电子组件捕捉的周围环境、位置或正在执行的其它活动有关的信号。例如，环境信号可以包括由客户端设备的麦克风检测到的音频信号，例如但不限于：风声、雨声、来自其它扬声器的声音，以及汽车的鸣笛声或任何其它噪声。

例如，可以通过麦克风接收雨声，并且可以将其用于生成如“it is raining(正在下雨)”的文本信息。在一些示例中，文本信息可以由客户端设备从环境信号生成，然后被发送给聊天服务器。在替代示例中，环境信号可以由聊天服务器处理，该聊天服务器通过网络从客户端设备接收这些信号。

在一些示例中，用户输入信号和环境信号由客户端设备或聊天服务器分析和/或转换为文本信息，以通过响应模式确定模块来确定响应模式。本文中，用户输入信号和环境信号可以是任何形式的文本信号、图像信号、音频信号、视频信号或任何其它检测到的信号。可以基于从用户输入信号和/或环境信号生成的综合文本信息，通过响应生成模块生成用于与对话的参与者(例如用户)交互的响应。

响应输出模块可以用于选择将要以文本、语音、图像或视频的形式输出的所生成的响应中的一个响应，考虑接收的信号与所生成的响应之间的相关性和/或任何其它因素，例如，从用户的语音信号中提取的语义信息、从环境信号转换的文本信息、对话日志、用户简档等。例如，响应输出模块可以将具有最高相关性得分的所生成的响应作为要输出的响应。

所生成的响应不限于捕捉的图像信号、音频信号、视频信号等的简单描述，还可以包含聊天机器人的情绪和/或观点，其可以被称为“共情响应”。能够产生这种共情响应的聊天机器人可以提供比那些传统聊天机器人更具沟通性和更智能的聊天体验。这样的聊天机器人可以应用于各种场景，例如驾驶陪伴、旅行陪伴、慢跑陪伴等。

在本公开内容中，“对话”或“聊天对话”是指聊天机器人和用户之间，或者聊天机器人和虚拟用户之间的电子交互，例如交换的文本、视频、图像、音频等的序列。虚拟用户可以指代电子聊天参与者。

在本文中，“用户简档”指的是与用户有关的电子存储的信息集合。此类信息可以包括用户的姓名、年龄、性别、身高、体重、人口统计、当前位置、居住地、公民身份、家庭、朋友、学校教育、职业、爱好、技能、兴趣、网络搜索、健康信息、生日、周年纪念、庆祝假期、心情以及与用户相关联的任何其它个性化信息。

已经概括地提供了一些所公开的示例的概述，请注意附图以进一步说明一些附加细节。提供例示配置和操作顺序以帮助读者理解所公开的示例的一些方面。附图并不意味着限制所有示例，因此一些示例可以在不脱离本文中讨论的所公开的示例的范围的情况下包括不同的组件、设备或操作顺序。换句话说，一些示例可以以与所示出的那些方式不同的方式来体现或者起作用。

图1是根据实施例的对话的示例性实现架构。可以存在客户端设备100、用户101、在其中进行对话的环境102、网络103、聊天服务器132以及对话的示例性实现架构中涉及的数据库134。

在一些示例中，客户端设备100具有至少一个处理器106、收发机108、一个或多个呈现组件110、一个或多个输入/输出(I/O)端口112、一个或多个I/O组件114以及存储器124。

客户端设备100可以采用移动计算设备或任何其它便携式设备的形式，如移动电话、膝上型电脑、平板电脑、计算平板设备、笔记本电脑、游戏设备、便携式媒体播放器等。客户端设备100还可以包括较不便携的设备，如桌面式个人计算机、信息亭、桌面设备、工业控制设备、无线充电站、电动汽车充电站、板载设备等。此外，客户端设备100可以替代地采用车辆的电子组件的形式，例如配备有麦克风或其它传感器的车辆计算机；或者任何其它计算设备。

处理器106可以包括可变数量的处理单元，并且被编程为执行用于实现本公开内容的方面的计算机可执行指令。指令可以由客户端设备内的处理器执行，或者由客户端设备外部的处理器执行。在一些示例中，处理器106被编程为执行根据本公开内容的实施例的方法。附加地或替代地，处理器106可以被编程为在用户界面(“UI”)中呈现聊天，例如，图12中所示的UI。

收发机108是能够发送和接收信号的天线。本领域技术人员将明白和理解：可以使用各种天线和相应的芯片组来提供客户端设备100与其它远程设备之间的通信能力。

呈现组件110可视地或可听地在客户端设备100上呈现信息。呈现组件110的示例包括但不限于计算机显示屏、电视机、投影仪、触摸屏、电话显示器、平板显示器、可穿戴设备屏幕、扬声器、振动设备以及被配置为显示、口头通信或以其它方式指示对用户的聊天响应的任何其它设备。

I/O端口112允许客户端设备100在逻辑上耦接到其它设备和I/O组件114，其中一些可以内置在客户端设备100中，而其它可以是外部的。具体到本文中讨论的示例，I/O组件114包括麦克风116、一个或多个传感器118、摄像头120和触摸设备122。麦克风116捕捉来自用户101的语音信号以及来自环境102的背景声音信号作为音频信号。传感器118可以包括客户端设备100中的任何数量的传感器。另外，传感器118可包括加速度计、磁力计、压力传感器、光度计、温度计、全球定位系统(“GPS”)芯片或电路、条形码扫描仪、用于扫描指纹、掌纹、血液、眼睛等的生物识别扫描仪、陀螺仪、近场通信(“NFC”)接收机、气味传感器或者被配置为从用户101或环境102捕捉信号的任何其它传感器。摄像头120可以从环境102捕捉图像或视频。触摸设备122可以包括触摸板、跟踪板、触摸屏或其它触摸捕捉设备。虽然I/O组件114被示为包括在客户端设备100中，但是这些I/O组件中的任何I/O组件也可以在客户端设备100的外部。

存储器124包括与客户端设备100相关联或可由客户端设备100访问的可变数量的存储设备。存储器124可以在客户端设备100内部(如图1所示)、在客户端设备100外部(图1中未示出)、或这二者。存储器124的示例可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电子可擦除可编程只读存储器(EEPROM)、闪存器或其它存储器技术、CDROM、数字多功能盘(DVD)或其它光学或全息介质、磁带盒、磁带、磁盘存储器或其它磁性存储设备、连接到模拟计算设备的存储器，或者用于对所需信息进行编码和用于由客户端设备100访问的任何其它介质。存储器124存储各种设备应用以及其它数据，所述各种设备应用在由处理器106执行时用于在计算设备100上执行功能。

具体而言，存储在存储器124中的指令包括通信接口应用126、用户界面应用128和聊天应用130。在一些示例中，通信接口应用126包括用于操作网络接口卡的计算机可执行指令和/或用于操作网络接口卡的驱动器。客户端设备100和其它设备之间的通信可以使用任何协议或机制通过有线或无线连接，或者跨网络104而发生。在一些示例中，通信接口应用126可使用电子标签(如NFC标签、蓝牙

品牌标签等)的RF和短程通信技术来操作。

在一些示例中，用户界面应用128包括用于向用户显示信息并从用户接收信息的图形应用。用户界面应用128还可以包括用于操作图形卡以便在呈现组件110上或通过呈现组件110显示聊天响应和相应图像或语音的计算机可执行指令。用户界面应用128还可以与各种传感器118交互以通过呈现组件110来捕捉和呈现信息。

在一些示例中，聊天应用130在被执行时可以检索通过I/O组件114所捕捉的用户信号和/或环境信号，并通过网络104将检索的用户和环境信号传送到远程服务器，例如，聊天服务器132。聊天应用130可以包括用于确定客户端设备100上的响应模式的指令。

在其它示例中，代替在客户端设备100上进行这样的确定，聊天服务器132可以操作服务器应用，该服务器应用被配置为：根据传送的用户信号和环境信号来确定响应模式，至少基于响应模式来生成聊天响应，以及将聊天响应传送回客户端设备100以通过呈现组件110显示或输出。聊天服务器132表示被配置为执行不同的网络服务计算机可执行指令的服务器或服务器集合。响应模式的确定可以由客户端设备100中的聊天应用130或由聊天服务器132执行。

响应模式可以包括各种类型的模式，例如，正向响应模式和负向响应模式。作为替代方式，响应模式还可以包括下列各项中的至少一项：话题发起模式、话题维持模式、话题切换模式等。作为另一种替代方式，响应模式可以具体包括下列各项中的至少一项：话题发起陈述模式、话题发起问题模式、话题发起回答模式、话题维持陈述模式、话题维持问题模式、话题维持回答模式、话题切换陈述模式、话题切换问题模式、话题切换回答模式等。在一些实现中，可以将那些话题发起模式并入相应的话题切换模式中，作为话题切换模式的特定初始化情况。例如，话题发起陈述模式可以并入话题切换陈述模式，话题发起问题模式可以并入话题切换问题模式，话题发起回答模式可以并入话题切换回答模式等等。

在一些示例中，可以通过对文本信号、视频信号、图像信号、音频信号、触摸信号或任何其它检测到的信号(例如，源自用户和/或环境并且在客户端设备上被捕捉或检测到的速度信号、气味信号、温度信号等)的解译、识别或分析来确定响应模式。在一些示例中，音频信号还可以进一步被分类为来自用户的语音信号和来自环境的背景声音信号。

例如，响应模式指示要生成的响应的表达风格是话题维持问题模式，并且文本信息是“flower,red(花，红色)”。然后可以基于这样的话题维持问题模式和文本信息来生成响应，例如“Do you think this red flower beautiful？(你认为这朵红花漂亮吗？)”，“Isthis red flower a rose？(这朵红花是玫瑰吗？)”以及“Do you like this red flower？(你喜欢这朵红花吗？)”。可以从生成的响应中选择最合适的响应(例如“Do you like thisred flower？(你喜欢这朵红花吗？)”)来输出给用户。

网络104可以包括任何计算机网络，例如，互联网、专用网络、局域网(LAN)、广域网(WAN)等。网络104可以包括各种网络接口、适配器、调制解调器以及用于通信地连接客户端设备100、聊天服务器132和数据库134的其它联网设备。

数据库134提供网页、用户和环境数据的后端存储，其可以由聊天服务器132或客户端设备100通过网络104访问。存储在数据库中的数据包括：例如但不限于，用户简档136、对话日志138等。附加地或替代地，可以将捕捉的用户和环境数据中的一些或全部发送给数据库134以进行存储。例如，与客户端设备100上的聊天应用130收集的用户简档或对话相关的信息可以被存储在数据库134上。

用户简档136可以包括用于各个用户的任何先前提到的数据。对话日志138可以指对话历史或对话的记录。

应当理解，尽管上文描述了包括若干组件的示例性客户端设备，但是可以将任何其它组件添加到客户端设备100中，和/或可以省略客户端设备100中的任何所示组件或者将其用其它组件替换。

图2根据实施例示出了用于基于接收的信号来生成响应的示例性一般过程200。

在210处，可以从至少一个信号源接收一个或多个信号。例如，可以从对话的参与者(例如，用户101)和/或从在其中进行对话的环境102接收信号。接收的信号可以包括文本信号和/或非文本信号，例如，来自用户101的文本信号、来自用户101的语音信号、来自环境102的图像信号、来自环境102的背景声音信号，以及来自环境102的任何其它信号。在本文中，非文本信号可以包括图像信号、音频信号和视频信号中的至少一项，并且音频信号包括语音信号和背景声音信号中的至少一项。

在220处，可以从接收的信号生成文本信息。文本信息可以指下列各项中的至少一项：由文本信号表示的文本的语义内容、由语音信号表示的语音的语义内容、由图像信号表示的图像的图像描述(image caption)、背景声音信号的属性或任何其它检测到的信号等等。

在一些示例中，当接收的信号是文本信号时，可以直接从文本信号的语义内容生成文本信息。

在一些示例中，当接收的信号是语音信号时，可以通过经由语音识别来识别语音信号的语义内容来生成文本信息。本文中，语音信号的语义内容可以表示用户正在说的内容。

在一些其它示例中，当接收的信号是图像信号时，可以通过对接收的图像信号执行图像捕捉过程来生成文本信息。例如，当接收的图像信号显示路边的黄花时，该图像的图像描述“路边有黄花”可以用作图像的文本信息。

仍在其它示例中，当接收的信号是背景声音信号时，可以通过对背景声音信号执行音频分析来生成文本信息，以获得信号的属性作为文本信息。例如，当背景声音信号指示风声很大时，可以分析背景声音信号的属性为“风声，大声(sound of wind,loud)”，可以将其视为从接收的背景声音信号生成的文本信息。在一些其它示例中，当背景声音信号是来自其它扬声器的声音时，可以分析背景声音信号的属性为“people are speaking(人正在说话)”，“here is human voice(这里是人声)”或“someone is speaking(某人正在说话)”，这可以被认为是文本信息。

附加地或替代地，可以从接收的信号中选择一个或多个信号(例如一些特定信号)，并且可以从该一个或多个所选择信号生成文本信息。与对所有接收的信号进行处理相比，它可以通过对一个或多个所选择信号进行处理来减少处理负担。可以基于预先定义的条件来执行选择操作。在一些实现中，这样的条件可以包括下列各项中的至少一项：先前接收的信号和当前接收的信号之间的信号差高于阈值、信号差低于阈值、预先定义的时段以及对话日志。

本文中，先前接收的信号和当前信号之间的信号差可以表示为先前接收的信号和当前接收的信号的信号向量差。阈值可以由用户预设(例如基于他的/她的偏好)，或者由聊天机器人至少基于用户简档和/或对话日志来自动确定。例如，在聊天机器人中的相机连续捕捉图像的情况下，聊天机器人可能不需要对每个捕捉的图像进行处理。当相机捕捉具有与先前捕捉的图像不同的花的图像时，当前图像信号和先前图像信号之间的信号向量差可以显著增加，并且聊天机器人可以从许多捕捉的图像中选择带有花的该图像，用于从所选图像生成文本信息。

在一些实现中，可以从接收的信号中选择一个或多个信号，以用于基于预先定义的时段来生成文本信息。预先定义的时段可以由用户预设或由聊天机器人至少基于用户简档和/或对话日志来随机地或自动地确定。例如，可以每10秒、每5分钟或基于任何其它时段从接收的信号中选择信号。

在一些其它实现中，可以基于用户和聊天机器人之间的对话的对话日志从接收的信号中选择一个或多个信号。例如，当一个或多个捕捉的信号(例如图像或声音)与对话日志中的内容相关时，可以选择这样的一个或多个捕捉的信号以用于生成文本信息。

应当理解，所有上述示例仅用于说明而不限制本公开内容的范围。

在230处，可以基于在220处生成的文本信息来确定响应模式。响应模式可以指示要生成的响应的表达风格。

在240处，可以至少基于文本信息，由响应模式指示的表达风格以及可选地，某些类型的环境信号(例如图像信号)来生成响应。

图3是根据实施例的示例性响应生成系统300的框图。

通常，响应生成系统300可以包括响应模式确定模块310、响应生成模块320以及响应输出模块330。

可以将生成的文本信息302提供给响应模式确定模块310，以确定要生成的响应304的响应模式。

当在响应模式确定模块310中确定响应模式时，可以将其与文本信息302一起馈送到响应生成模块320以生成响应。本文中，响应模式也可以是文本形式，并与文本信息组合以生成文本序列作为响应模式确定模块310的输出，以提供给响应生成模块320。

虽然响应生成模块320被示为单个模块，但本领域技术人员将理解，响应生成模块320实际上可以是可扩展的。在一些示例中，响应生成模块320可以包括文本编码器322、文本关注模型324和解码器326。本文中，文本编码器322可以接收包括文本信息和响应模式的文本序列，并对文本序列执行编码以生成文本向量。可以将文本向量提供给文本关注模型324，以通过文本关注处理生成文本关注特征。解码器326可以接收这样的文本关注特征并执行解码过程以生成响应。

生成的响应可以被输入到响应输出模块330。响应输出模块330从所生成的响应中选择适当的响应来输出。可以基于预先定义的条件或通过任何其它可用技术(例如任何现有排序或排名技术)来选择适当的响应。例如，可以选择具有最高相关性得分的响应作为要输出的适当响应。

应当理解，虽然响应输出模块330被示为与响应生成模块320分离，但是它也可以合并到响应生成模块320中。也就是说，响应生成模块320可以生成并输出合适的响应304。

图4根据实施例示出了示例性响应模式确定模型400。

响应模式确定模型400可以用在图3中的响应模式确定模块310中，并且可以通过神经网络分类器来实现。

如图4所示，文本信息402可以被输入到响应模式确定模型400中。在本文中，可以将文本信息402分成句子序列s₁-s_v，每个句子s_i由单词序列w_i1-w_it表示。在一些示例中，句子可以是仅包括一个或几个单词和/或一个或几个短语的短句，或是包括多个单词和/或多个短语的长句。例如，如图4所示，句子s₁可以用w₁₁-w_1t来表示；句子s₂可以用w₂₁-w_2t来表示；句子s_v可以用w_v1-w_vt来表示。可以用编码器(例如层级编码器)来对句子序列s₁-s_v进行编码，以生成用于文本信息的隐藏向量序列h^s ₁-h^s _v，可以将其连接成隐藏向量h^s。可以用编码器(例如门控循环单元(GRU))来对若干响应模式m₁-m_n进行编码，以生成用于响应模式的隐藏向量序列h^m ₁-h^m _n，可以将其连接成隐藏向量h^m。可以将隐藏向量h^s和h^m馈送到多层感知器(MLP)以计算对话中下一轮的响应模式的概率分布，其可以表示为p_m1,p_m2...p_mn，如图4所示，并且可以计算如下：

其中，m_i表示对话中第i轮会话的响应模式，d_i＝{(s₁,m₁),(s₂,m₂)...(s_i-1,m_i-1)}表示对话中的会话集，f_MLP表示MLP函数。

根据每个响应模式m_i的计算概率p_mi，可以为对话中的第i轮会话确定适当的响应模式m_i。

图5根据实施例示出了具有文本关注模型的示例性响应生成模型500。响应生成模型500可以用在图3中的响应生成模块310中，并且可以通过神经网络来实现。

如图5所示，对于每个句子s_i，其可以基于确定的响应模式m_i和接收的句子s_i-1来生成。本文中，句子s_i和s_i-1可以分别表示为单词序列[w_i,1...w_i,t]和[w_i-1,1...w_i-1,t]。确定的响应模式m_i可以作为特殊单词附加到句子s_i-1，以形成用编码器编码的单词序列，以便生成向量集[v₀,v₁,...,v_t]。本文中，编码器可以通过神经网络实现，例如具有门控循环单元的双向循环神经网络(biGRU)。应当理解，尽管m_i附加到图5中的单词序列[w_i-1,1...w_i-1,t-1]的顶部，但是它可以附加到单词序列的末尾，或者可以嵌入到单词序列的任何位置(如果适用的话)。

可以将来自编码器的生成的向量集[v₀,v₁,...,v_t]输入到文本关注模型，以生成关注向量集，[v’₁,v’₂,...,v’_t-1]。解码器将关注向量集[v’₁,v’₂,...,v’_t-1]作为输入，并通过具有关注机制的语言模型来生成响应。通过解码过程，它可以获得单词序列[w_i, ₁...w_i,t-1]，其可以继而通过softmax层来输出单词，例如，图5所示的示例性w_i,3。应当理解，尽管仅示出了输出的w_i,3，但是应该有一个或多个单词从解码器输出以生成响应。还应当理解，尽管图5中的编码器的所示输入是m_i并且单词序列[w_i-1,1...w_i-1,t-1]表示句子s_i-1，但是在对话日志中也可以存在s_i-2,s_i-3,...,s₁要输入到编码器。从图4和图5中示出的示例，可以至少基于确定的响应模式和文本信息中包括的一个或多个句子来生成响应。

图6根据实施例示出了用于基于语音信号或文本信号生成响应的示例性过程600。

如图6所示，用于基于语音信号602生成响应的过程与针对文本信号602'的过程类似，除了可以直接从接收的文本信号602'生成文本信息610而无需任何额外的识别或转换处理，因此，为简单起见，本文中省略了对文本信号602'的处理的详细描述，并且下文可以描述音频信号602的处理作为示例。

当接收到音频信号602时，可以将其馈送到用户ID识别模块604，以识别该音频信号是否是来自正与聊天机器人进行对话的用户的语音信号606。例如，用户ID识别模块604可以提取音频信号602的音频特征以使其与预先存储的用户ID进行匹配。如果相匹配，则音频信号602可以被认为是来自用户的语音信号并且被馈送到语音识别模块608。语音识别模块608可以通过各种语音到文本技术来将该语音信号变换或转换为文本信息610。文本信息610可以被输入到响应模式确定模块620以用于确定响应模式。

响应生成模块630可以接收所确定的响应模式和文本信息610，并且至少基于响应模式和文本信息来生成一个或多个响应。本文中，响应生成模块630可以包括文本编码器632、文本关注模型634和解码器636，其与图3所示的包括文本编码器322、文本关注模型324和解码器326的响应生成模块320类似。具体地说，文本信息610和响应模式可以被馈送到响应生成模块630中包括的文本编码器632。为简单起见，本文中省略了对文本编码器632、文本关注模型634和解码器636的详细描述。

生成的一个或多个响应可以被馈送到响应输出模块640，以选择要输出的适当响应。由于响应输出模块640的操作与图3中所示的响应输出模块330类似，因此为简单起见，在本文中省略对响应输出模块640的详细描述。

图7根据实施例示出了用于基于图像信号生成响应的示例性过程700。

可以接收图像信号702并将其馈送到图像描述模块704。图像描述模块704对图像信号702执行图像描述以便将图像信号702变换或转换成文本信息706。响应模式确定模块708可以接收用于确定响应模式的文本信息。响应生成模块710可以从响应模式确定模块708接收所确定的响应模式以及文本信息706，以便至少基于所接收的响应模式和文本信息来生成响应。如图7所示，该实现中的响应生成模块701包括文本编码器711、文本关注模型712、图像编码器713、空间关注模型714、自适应关注模型715以及解码器716。具体地说，文本信息706和响应模式可以被馈送到响应生成模块710中的文本编码器711。本文中，文本编码器711和文本关注模型712的操作与图3中的文本编码器322和文本关注模型324类似，并且为了简单起见，省略了对它们的详细描述。

附加地或替代地，图像信号702可以被馈送到图像编码器713中。图像编码器713可以对图像信号702执行编码以生成图像向量。空间关注模型714可以接收图像向量并提取空间图像特征，用于指示突出显示与每个生成的单词相关的图像区域的空间图。下面可以参考图8描述空间关注模型714的示例性结构。

自适应关注模型715可以从空间关注模型714接收空间图像特征并且从文本关注模型712接收文本关注特征以生成自适应关注特征。自适应关注模型715可以被配置为：确定何时依赖图像信号以及何时依赖语言模型来生成下一个单词。当依赖图像信号时，自适应关注模型715还可以确定它应该注意哪里，即哪个图像区域。下面可以参考图9描述自适应关注模型715的示例性结构。

解码器716可以从自适应关注模型715接收自适应关注特征，并且至少基于自适应关注特征来生成响应。

来自解码器716的所生成的响应可以被传送到响应输出模块720，用于选择适当响应以加以输出。用于在响应输出模块720中选择适当响应的操作可以与响应输出模块330中的操作类似，因此为了简单起见对此进行了省略。

附加地或替代地，响应输出模块720可以包括卷积特征提取模块721和双重关注模块722。卷积特征提取模块721可以接收图像信号702并提取图像信号的卷积特征。所提取的图像信号的特征可以以文本形式与来自解码器716的所生成的响应一起被馈送到双重关注模块722。双重关注模块722可以结合视觉和文本关注模型，并且对图像信号702的提取的特征和所生成的响应执行双重关注机制，例如，比较这两个输入，以输出适当的响应。视觉关注模型可以关注图像中的特定区域以提取图像关注特征，并且文本关注模型可以关注文本内容中的特定单词或句子以便从文本中提取文本关注特征。在一些示例中，双重关注模块722可以通过将图像信号的所提取的特征与所生成的响应的文本内容进行比较来执行图像-文本匹配，并且可以通过聚焦他们的共同语义来对图像信号的特征与响应的文本内容之间的相似性进行估计。

应当理解，尽管卷积特征提取模块721和双重关注模块722被示为包括在响应输出模块720中，但是它们也可以与响应输出模块720分离和/或可以被省略或由任何其它合适的模块来替换。

图8根据实施例示出了示例性空间关注模型800，其与图7中的空间关注模型714相对应。

本文中，空间关注模型800可以由神经网络实现，用于生成图像的空间关注向量c_t。如图8所示，x_t和h_t-1被输入到长短期记忆单元(LSTM)以生成LSTM的隐藏状态h_t。本文中，x_t表示时刻t的输入向量，h_t表示LSTM在时刻t-1的隐藏状态，h_t表示LSTM在时刻t的隐藏状态。生成的向量h_t可以与空间图像特征集V一起被馈送到关注模型，空间图像特征集V可以表示为V＝[v₁,...v_k]，其中的每个v_i是与图像的区域相对应的多维表示。通过关注模型，空间关注向量c_t可以如下生成：

c_t＝g(V,h_t) 方程式(2)

其中，g是关注函数。

生成的空间关注向量c_t可以与h_t一起被馈送到MLP，以通过MLP函数f_MLP生成与单词相对应的输出向量y_t：

y_t＝f_MLP([c_t,h_t]) 方程式(3)

应当理解，尽管未在图8中示出，但是在空间图像特征集V中的每个空间图像特征v上可能存在关注权重α。

图9根据实施例示出了示例性自适应关注模型900，其与图7中的自适应关注模型715相对应。

自适应关注模型900可以由神经网络实现，用于生成针对图像和文本二者的自适应关注向量c’_t。

与图8类似，将x_t和h_t-1输入到长短期记忆单元(LSTM)以生成LSTM的隐藏状态h_t。在本文中，从输入向量x_t中提取指示向量i_t，以指示是否关注文本。可以通过以下方程式来计算指示向量i_t：

i_t＝g_t⊙tanh(m_t) 方程式(4)

g_t＝σ(W_xx_t+W_hh_t-1) 方程式(5)

其中，g_t表示施加在LSTM的存储器单元m_t上的栅极，⊙表示逐个元素的乘积，W_x和W_h分别表示输入向量x_t和隐藏状态h_t-1的权重参数，并且σ表示逻辑S形(Sigmoid)激活。

基于生成的指示向量i_t和空间图像特征集V＝[v₁,...v_k]，可以通过以下方程式来计算自适应关注向量c’_t：

c′_t＝β_ti_t+(1-β_t)c_t＝β_ti_t+(1-β_t)g(V，h_t) 方程式(6)

其中，β_t表示在时间t关注文本的概率，其在[0,1]范围内，其中值1表示在生成下一个单词时仅使用文本特征，而值0表示在生成下一个单词时仅使用空间图像特征；并且c_t表示空间关注向量，如方程式(2)中由g(V,h_t)计算的。

附加地或替代地，如图9所示，每个空间图像特征v_i的α_i表示每个空间图像特征上的相应关注权重。

尽管未在图9中示出，但是可以基于自适应关注向量c’_t，而不是图8中的空间关注向量c_t，通过MLP来生成输出y_t。

图10根据实施例示出了用于基于音频信号生成响应的示例性过程1000。

当接收到音频信号1002时，可以将其馈送到用户ID识别模块1004，以识别该音频信号是否是来自用户的语音信号1006。如果认为音频信号不是来自用户的语音信号，则可以认为音频信号1002是背景声音信号，例如风声、雨声、来自其它扬声器的声音等，并且可以将其馈送到音频分析模块1008。音频分析模块1008可以对音频信号进行分析以便从中提取文本信息1010。文本信息1010可以被输入到响应模式确定模块1020用于确定响应模式。

由于用户ID识别模块1004的操作与图6中的用户ID识别模块604类似，并且响应模式确定模块1020的操作与图6中的响应模式确定模块620类似，因此本文中可以省略对用户ID识别模块1004和响应模式确定模块1020的详细描述。

响应生成模块1030可以接收所确定的响应模式和文本信息1010，并且至少基于响应模式和文本信息来生成一个或多个响应。本文中，响应生成模块1030可以包括文本编码器1032、文本关注模型1034以及解码器1036，其操作与图3中的响应生成模块320和图6中的响应生成模块630的操作类似。为简单起见，本文中省略了对文本编码器1032、文本关注模型1034和解码器1036的详细描述。

所生成的一个或多个响应可以被馈送到响应输出模块1040，以选择要输出的适当响应。由于响应输出模块1040的操作与图3所示的响应输出模块330和图6所示的响应输出模块630类似，因此为简单起见，在本文中省略对响应输出模块1040的详细描述。

附加地或替代地，响应输出模块1040可以包括文本到语音(TTS)模块1042，其用于将文本信号转换成语音信号并生成语音输出。应当理解，尽管TTS模块1042被示为包括在响应输出模块1040中，但是它们也可以与响应输出模块1040分离和/或可以被省略或由任何其它合适的模块来替换。

图11根据实施例示出了用于基于图像信号和音频信号来生成响应的示例性过程1100。

由于用于基于图像信号和音频信号生成响应的过程1100可以被视为图6、图7和图10中所示的过程的组合，因此可以省略或简化对图11中的模块的详细描述。

当接收到图像信号1102时，可以将其馈送到图像描述模块1104。图像描述模块1104对图像信号1102执行图像描述以便将图像信号1102变换或转换成文本信息，作为文本信息1116的一部分。

当接收到音频信号1106时，可以将其馈送到用户ID识别模块1108，以识别该音频信号是否是来自用户的语音信号1110。如果音频信号1106被认为是来自用户的语音信号，则可以将其馈送到语音识别模块1114。语音识别模块1114可以将语音信号变换或转换为文本信息，作为文本信息1116的一部分。如果确定音频信号不是来自用户的语音信号，则可以认为音频信号1106是背景声音信号，例如风声、雨声、来自其它扬声器的声音等，并且可以将其馈送到音频分析模块1112。音频分析模块1112可以对音频信号进行分析以从中提取文本信息，作为文本信息1116的一部分。

可以通过将所接收的两个或更多个信号(例如图像信号1102和音频信号1106)的各自的文本信息进行组合来生成文本信息1116。例如，可以将从图像信号1102转换的文本信息和从音频信号1106转换或提取的文本信息进行组合以生成文本信息1116。

文本信息1116可以被输入到响应模式确定模块1118用于确定响应模式。

响应生成模块1120可以从响应模式确定模块1118接收所确定的响应模式以及文本信息1116，以至少基于所接收的响应模式和文本信息来生成响应。如图11所示，该实现中的响应生成模块1120包括文本编码器1121、文本关注模型1122、图像编码器1123、空间关注模型1124、自适应关注模型1125以及解码器1126。具体而言，文本信息1116可以与确定的响应模式一起被馈送到响应生成模块1120中的文本编码器1121。

本文中，由于文本编码器1121和文本关注模型1122的操作分别与图3中的文本编码器322和文本关注模型324、图6中的文本编码器632和文本关注模型634以及图7中的文本编码器711和文本关注模型712类似，因此为简单起见，本文中省略了对它们的详细描述。此外，由于图像编码器1123、空间关注模型1124、自适应关注模型1125和解码器1126的操作与图7中的图像编码器713、空间关注模型714、自适应关注模型715和解码器716类似，因此，为简单起见，本文中省略了对它们的详细描述。

来自解码器1126的所生成的响应可以被传送到响应输出模块1130，以选择适当响应进行输出。用于在响应输出模块1130中选择适当响应的操作可以与图3中的响应输出模块330中的该操作类似，因此为了简单起见对此进行了省略。

附加地或替代地，响应输出模块1130可以包括卷积特征提取模块1131、双重关注模块1132以及可选的TTS模块1133。由于卷积特征提取模块1131和双重关注模块1132的操作与图7中的卷积特征提取模块721和双重关注模块722类似，因此为简单起见，本文中省略了对它们的详细描述。此外，由于TTS模块1133的操作与图10中的TTS模块1042类似，因此为简单起见，本文中省略了对它们的详细描述。

根据如上所述用于至少基于响应模式和来自音频信号和/或图像信号的文本信息来生成响应的示例性过程，图12根据实施例示出了用于用户和聊天机器人之间的对话的示例性对话窗口1200。

在图12的示例中，为了描述方便起见，在对话窗口外的虚线框中以文本形式示出了用户和/或聊天机器人说出的语义信息或内容(其在对话窗口中可能不可见)。同样为了便于理解，在图12的示例中，在对话窗口外的实线块中示出了对捕捉环境信号的描述。

如图12中的1201所示，当聊天机器人检测到存在与先前场景不同的东西时，例如，路边有一些黄花，它可以捕捉具有黄花的图像，并且可以基于捕捉的图像来发起或切换话题。可以通过基于从图像提取的信息的响应模式确定模型来确定初始响应模式。例如，初始响应模式可以被确定为正向响应模式和/或话题发起陈述模式。可以至少基于初始响应模式和来自捕捉的图像的文本信息(诸如“yellow,flowers(黄色，花)”的关注特征)以及连同用户简档和/或对话日志中的任何其它可能信息来生成响应。示例性响应可以被输出为“Look！The yellow flowers are blooming.My mother grew the same flowers in thegarden when I was young(看！黄色的花在盛开，我母亲在我小时候在花园里种了同样的花)，如1211所示。

当用户提供1221所示的语音消息时，聊天机器人可以从语音消息的语音信号中生成以下文本信息“Oh,yes.They are so beautiful(哦，是的。它们是如此美丽)并且确定针对要基于该文本信息生成的响应的响应模式，例如，基于正向单词“漂亮”的正向响应模式和/或基于句子“它们是如此美丽”的话题维持问题模式。基于确定的响应模式和生成的文本信息，聊天机器人可以生成并输出响应“Would you like to grow some in yourgarden？(你想在你的花园里种一些吗)？”，如话题维持问题模式下由1212所示。

当聊天机器人接收到1222所示的语音消息时，聊天机器人可以从接收的信号生成文本信息“Actually,not.Because I am allergic to pollen(实际上，不。因为我对花粉过敏)”并且基于所生成的文本信息将响应模式确定为正向响应模式和/或话题维持陈述模式。此外，至少基于注意特征“not(不)”和“allergic to pollen(对花粉过敏)”以及确定的响应维持陈述模式，聊天机器人可以生成并输出响应“It is also a good way to have alook far away(远远的看一下也是一种很好的方式)”，如1213所示，以维持对话中的当前话题。

除了接收语音/音频信号之外，聊天机器人可能可以以其它形式来接收信号。例如，聊天机器人可以从用户接收文本形式的消息，例如1223所示的单词“Yes(是的)”。

同时或几分钟之后，聊天机器人可以检测音频信号并且可以通过音频分析模块从音频信号识别文本信息“Michael Jackson’s music(迈克尔·杰克逊的音乐)”，如1202所示。基于所识别或生成的文本信息，聊天机器人可以将响应模式确定为正向响应模式和/或话题切换陈述模式。可以基于所确定的响应模式和所识别的文本信息来生成响应，诸如“Oh,I like Michael Jackson but I prefer his slow songs compared to this one(哦，我喜欢迈克尔·杰克逊，但与这首歌相比我更喜欢他的慢歌)”，如1214所示。当从用户接收语音消息时，聊天机器人可以从语音消息的语音信号生成文本信息，即“Could yourecommend one of his slow songs？(你能推荐一首他的慢歌吗？)”，如1224所示。基于所生成的文本信息，聊天机器人可以确定用于下一个响应的响应模式，例如正向响应模式和/或话题维持回答模式。下一个响应“Sure.Let me play it for you(当然。让我为你播放)”如1215所示，可以基于确定的响应模式和文本信息来生成。可以通过TTS模块以语音形式输出下一个响应。作为替代方式，可以以文本形式输出响应。

几分钟后，聊天机器人可以通过麦克风检测背景声音信号并通过相机捕捉图像信号。可以对背景声音信号进行分析以生成文本信息“loud noise(大声的噪声)”，并且可以通过图像描述对图像信号进行处理以生成文本信息“many people(许多人)”，如1203所示。聊天机器人可以至少基于所生成的文本信息来确定响应模式，例如负向响应模式和/或话题切换问题模式。可以基于所确定的响应模式连同所生成的文本信息(例如，来自文本信息的文本关注特征“loud noise(大声的噪声)”)一起生成如1216所示的响应，例如，“It’s sonoisy.What happened？(太吵了。发生了什么事？)”。

用户可以向聊天机器人提供如1226所示的语音消息以回答其问题。聊天机器人接收该语音消息并将其识别为文本信息“There is a rock festival(在开摇滚音乐节)”。聊天机器人可以基于文本信息来确定响应模式，例如负向响应模式和/或话题切换陈述模式。因此，可以基于响应模式和文本信息来生成如1217所示的响应：“Oh,I don’t like rockmusic.There is so crowded.Let’s leave here(哦，我不喜欢摇滚音乐。这么挤。让我们离开这里)”，并且可以通过TTS模块以语音形式输出该响应。

应当明白的是：用户和聊天机器人之间的对话可以以文本、语音、图像、视频等或者它们的任意组合的任何形式来进行。

图13根据实施例示出了用于在对话中生成响应的示例性方法1300的流程图。

在1310处，可以从至少一个信号源接收至少一个信号。

在1320处，可以基于该至少一个接收的信号来生成文本信息。

在1330处，可以至少基于该文本信息来确定响应模式。在一些实现中，响应模式可以指示要生成的响应的表达风格。

在1340处，可以至少基于该文本信息和该响应模式来生成响应。

在一种实现中，至少一个信号源可以包括对话的参与者或在其中进行对话的环境。

在一种实现中，至少一个接收的信号可以包括文本信号和/或非文本信号。在一些示例中，非文本信号可以包括图像信号、音频信号和视频信号中的至少一项，并且音频信号可以包括语音信号和背景声音信号中的至少一项。

在一种实现中，至少一个接收的信号可以包括两个或更多个信号。在一些示例中，生成文本信息可以包括：通过对两个或更多个信号的各自文本信息进行组合来生成文本信息。

在一种实现中，响应模式可以包括正向响应模式和负向响应模式中的至少一项。

在一种实现中，响应模式可以包括下列各项中的至少一项：话题维持陈述模式、话题维持问题模式、话题维持回答模式、话题切换陈述模式、话题切换问题模式以及话题切换回答模式。

在一种实现中，确定响应模式可以包括：通过神经网络分类器至少基于文本信息来确定响应模式。

在一种实现中，生成响应可以包括：通过文本关注模型基于文本信息和响应模式来生成至少一个文本关注特征；以及至少基于至少一个文本关注特征来生成响应。

在一种实现中，至少一个接收的信号可以包括非文本信号。在一些示例中，生成文本信息包括：通过对非文本信号执行信号分析来生成文本信息。

在一种实现中，非文本信号是图像信号，并且生成响应可以包括：通过空间关注模型基于图像信号来生成至少一个图像关注特征；通过文本关注模型基于文本信息和响应模式来生成至少一个文本关注特征；以及至少基于至少一个图像关注特征和至少一个文本关注特征来生成响应。

在一种实现中，生成响应可以包括：通过自适应关注模型基于所述至少一个图像关注特征和所述至少一个文本关注特征来生成至少一个自适应关注特征；以及至少基于所述至少一个自适应关注特征来生成所述响应。

应该明白的是：方法1300还可以包括用于如上所述根据本公开内容的实施例在对话中生成响应的任何步骤/过程。

图14根据实施例示出了用于在对话中生成响应的示例性装置1400。

装置1400可以包括：信号接收模块1410，其用于从至少一个信号源接收至少一个信号；文本信息生成模块1420，其用于基于至少一个接收的信号来生成文本信息；响应模式确定模块1430，其用于至少基于文本信息来确定响应模式，响应模式指示要生成的响应的表达风格；以及响应生成模块1440，其用于至少基于文本信息和响应模式来生成响应。

在一种实现中，至少一个信号源可以包括对话的参与者或在其中进行对话的环境，并且其中，至少一个接收的信号可以包括文本信号和/或非文本信号，非文本信号可以包括图像信号、音频信号和视频信号中的至少一项，并且音频信号包括语音信号和背景声音信号中的至少一项。

在一种实现中，至少一个接收的信号包括两个或更多个信号，并且文本信息生成模块1420还用于：通过对两个或更多个信号的各自文本信息进行组合来生成该文本信息。

在一种实现中，响应生成模块1440还用于：通过文本关注模型基于文本信息和响应模式来生成至少一个文本关注特征；以及至少基于至少一个文本关注特征来生成响应。

在一种实现中，至少一个接收的信号可以包括非文本信号。在一些示例中，文本信息生成模块还用于：通过对非文本信号执行信号分析来生成文本信息。

在一种实现中，非文本信号是图像信号。在一些示例中，响应生成模块1440还用于：通过空间关注模型基于图像信号来生成至少一个图像关注特征；通过文本关注模型基于文本信息和响应模式来生成至少一个文本关注特征；以及至少基于至少一个图像关注特征和至少一个文本关注特征来生成响应。

在一种实现中，响应生成模块1440还用于：通过自适应关注模型基于至少一个图像关注特征和至少一个文本关注特征来生成至少一个自适应关注特征；以及至少基于至少一个自适应关注特征来生成响应。

另外，装置1400还可以包括被配置用于根据如上所述的本公开内容的实施例在对话中生成响应的任何其它模块。

图15根据实施例示出了用于在对话中生成响应的示例性装置1500。装置1500可以包括一个或多个处理器1510以及存储计算机可执行指令的存储器1520。当执行计算机可执行指令时，一个或多个处理器1510可以：从至少一个信号源接收至少一个信号；基于至少一个接收的信号来生成文本信息；至少基于文本信息来确定响应模式，响应模式指示要生成的响应的表达风格；以及至少基于文本信息和响应模式来生成响应。

本公开内容的实施例可以体现为非临时性计算机可读介质。非临时性计算机可读介质可以包括指令，当被执行时，指令使得一个或多个处理器根据如上所述的本公开内容的实施例执行用于在对话中生成响应的方法的任何操作。

应该明白的是：上述方法中的所有操作仅仅是示例性的，并且本公开内容不局限于这些方法中的任何操作或者这些操作的序列顺序，并且应该覆盖相同或相似概念下的所有其它等价物。

还应该明白的是：上述装置中的所有模块可以以各种方式来实现。这些模块可以被实现为硬件、软件或它们的组合。此外，这些模块中的任何一个模块还可以在功能上分成子模块或组合在一起。

已经结合各种装置和方法对处理器进行了描述。这些处理器可以使用电子硬件、计算机软件或它们的任意组合来实现。至于这些处理器是实现为硬件还是软件将取决于特定的应用和对系统所施加的整体设计约束。通过举例的方式，本公开内容中给出的处理器、处理器的任意部分或处理器的任意组合可以使用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑、分立硬件电路、以及被配置为执行贯穿本公开内容描述的各种功能的其它合适的处理组件来实现。本公开内容中给出的处理器、处理器的任意部分或处理器的任意组合的功能可以使用由微处理器执行的软件、微控制器、DSP或其它合适的平台来实现。

软件应该被广义地解释为意指指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、执行线程、过程、函数等。软件可以位于计算机可读介质上。举例而言，计算机可读介质可以包括存储器，诸如磁存储设备(例如，硬盘、软盘、磁带)、光碟、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或可移动磁盘。虽然在贯穿本公开内容给出的各个方面中存储器被示为与处理器分离，但存储器可以在处理器内部，例如，高速缓存器或寄存器。

提供了前述描述以使本领域任何技术人员能够实施本文所描述的各个方面。对这些方面的各种修改对于本领域技术人员将是显而易见的，并且本文定义的一般原则可应用于其它方面。因此，权利要求书不意图受到本文中示出的方面的限制。对本领域普通技术人员来说已知或者将要获知的与贯穿本公开内容所描述的各种方面的元素等效的所有结构和功能在此都通过引用的方式明确并入本文，并且旨在被权利要求书所包括。

Claims

1.一种用于在对话中生成响应的方法，包括：

从至少一个信号源接收至少一个信号；

基于至少一个接收的信号来生成文本信息；

至少基于所述文本信息来确定响应模式，所述响应模式指示要生成的响应的表达风格；以及

至少基于所述文本信息和所述响应模式来生成所述响应。

2.根据权利要求1所述的方法，其中，所述至少一个信号源包括对话的参与者或在其中进行所述对话的环境。

3.根据权利要求1所述的方法，其中，所述至少一个接收的信号包括文本信号和/或非文本信号，所述非文本信号包括图像信号、音频信号和视频信号中的至少一项，并且所述音频信号包括语音信号和背景声音信号中的至少一项。

4.根据权利要求1所述的方法，其中，所述至少一个接收的信号包括两个或更多个信号，并且生成所述文本信息包括：

通过对所述两个或更多个信号的各自文本信息进行组合来生成所述文本信息。

5.根据权利要求1所述的方法，其中，所述响应模式包括正向响应模式和负向响应模式中的至少一项。

6.根据权利要求1所述的方法，其中，所述响应模式包括下列各项中的至少一项：话题维持陈述模式、话题维持问题模式、话题维持回答模式、话题切换陈述模式、话题切换问题模式以及话题切换回答模式。

7.根据权利要求1所述的方法，其中，确定所述响应模式包括：

通过神经网络分类器至少基于所述文本信息来确定所述响应模式。

8.根据权利要求1所述的方法，其中，生成所述响应包括：

通过文本关注模型基于所述文本信息和所述响应模式来生成至少一个文本关注特征；以及

至少基于所述至少一个文本关注特征来生成所述响应。

9.根据权利要求1所述的方法，其中，所述至少一个接收的信号包括非文本信号，并且生成所述文本信息包括：

通过对所述非文本信号执行信号分析来生成所述文本信息。

10.根据权利要求9所述的方法，其中，所述非文本信号是图像信号，并且生成所述响应包括：

通过空间关注模型基于所述图像信号生成至少一个图像关注特征；

通过文本关注模型基于所述文本信息和所述响应模式生成至少一个文本关注特征；以及

至少基于所述至少一个图像关注特征和所述至少一个文本关注特征来生成所述响应。

11.根据权利要求10所述的方法，其中，生成所述响应包括：

通过自适应关注模型基于所述至少一个图像关注特征和所述至少一个文本关注特征生成至少一个自适应关注特征；以及

至少基于所述至少一个自适应关注特征来生成所述响应。

12.一种用于在对话中生成响应的装置，包括：

信号接收模块，用于从至少一个信号源接收至少一个信号；

文本信息生成模块，用于基于所述至少一个接收的信号来生成文本信息；

响应模式确定模块，用于至少基于所述文本信息来确定响应模式，所述响应模式指示要生成的响应的表达风格；以及

响应生成模块，用于至少基于所述文本信息和所述响应模式来生成所述响应。

13.根据权利要求12所述的装置，其中：

所述至少一个信号源包括所述对话的参与者或在其中进行所述对话的环境，并且

所述至少一个接收的信号包括文本信号和/或非文本信号，所述非文本信号包括图像信号、音频信号和视频信号中的至少一项，并且所述音频信号包括语音信号和背景声音信号中的至少一项。

14.根据权利要求12所述的装置，其中，所述至少一个接收的信号包括两个或更多个信号，并且所述文本信息生成模块还用于：通过对所述两个或更多个信号的各自文本信息进行组合来生成所述文本信息。

15.根据权利要求12所述的装置，其中，所述响应生成模块还用于：

至少基于所述至少一个文本关注特征来生成所述响应。

16.根据权利要求12所述的装置，其中，所述响应模式包括下列各项中的至少一项：话题维持陈述模式、话题维持问题模式、话题维持回答模式、话题切换陈述模式、话题切换问题模式以及话题切换回答模式。

17.根据权利要求12所述的装置，其中，所述至少一个接收的信号包括非文本信号，并且所述文本信息生成模块还用于：

通过对所述非文本信号执行信号分析来生成所述文本信息。

18.根据权利要求17所述的装置，其中，所述非文本信号是图像信号，并且所述响应生成模块还用于：

19.根据权利要求18所述的装置，其中，所述响应生成模块还用于：

至少基于所述至少一个自适应关注特征来生成所述响应。

20.一种用于在对话中生成响应的装置，包括：

一个或多个处理器；以及

存储器，其存储计算机可执行指令，当被执行时，所述计算机可执行指令使所述一个或多个处理器：

从至少一个信号源接收至少一个信号；

基于至少一个接收的信号来生成文本信息；

至少基于所述文本信息和所述响应模式来生成所述响应。