CN112286366B

CN112286366B - 用于人机交互的方法、装置、设备和介质

Info

Publication number: CN112286366B
Application number: CN202011598915.9A
Authority: CN
Inventors: 吴文权; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-02-22
Anticipated expiration: 2040-12-30
Also published as: CN114578969A; US20210280190A1; CN114578969B; JP2021168139A; CN112286366A; JP7432556B2

Abstract

本公开公开了用于人机交互的方法、装置、设备和介质，涉及人工智能领域，尤其涉及深度学习、语音技术和计算机视觉领域。具体实现方案为：基于接收的语音信号，生成针对语音信号的答复的答复文本；基于语音信号单元与文本单元之间的映射关系，生成与答复文本相对应的答复语音信号，答复文本包括一组文本单元；基于答复文本确定表情和/或动作的标识，其中由虚拟对象呈现表情和/或动作；以及基于答复语音信号、表情和/或动作的标识，生成包括虚拟对象的输出视频，输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。通过该方法，可以显著的增加交互内容的范围，改进人机交互的质量和水平，提高用户体验。

Description

用于人机交互的方法、装置、设备和介质

技术领域

本公开涉及人工智能领域，尤其涉及深度学习、语音技术和计算机视觉领域的用于人机交互的方法、装置、设备和介质。

背景技术

随着计算机技术的快速发展，人与机器的交互越来越多。为了提高用户的体验，人机交互技术得到了快速的发展。用户发出语音命令后，计算设备通过语音识别技术来识别用户的语音。在识别完成后，执行与用户的语音命令相对应的操作。这种语音交互方式改进了人机交互的体验。然而，在人机交互过程中还存在着许多需要解决的问题。

发明内容

本公开提供了一种用于人机交互的方法、装置、设备和介质。

根据本公开的第一方面，提供了一种用于人机交互的方法。该方法包括基于接收的语音信号，生成针对语音信号的答复的答复文本。该方法还包括基于语音信号单元与文本单元之间的映射关系，生成与答复文本相对应的答复语音信号，答复文本包括一组文本单元，生成的答复语音信号包括与一组文本单元对应的一组语音信号单元。该方法还包括基于答复文本确定表情和/或动作的标识，其中由虚拟对象呈现表情和/或动作。该方法还包括基于答复语音信号、表情和/或动作的标识，生成包括虚拟对象的输出视频，输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。

根据本公开的第二方面，提供了一种用于人机交互的装置。该装置包括答复文本生成模块，被配置为基于接收的语音信号，生成针对语音信号的答复的答复文本；第一答复语音信号生成模块，被配置为基于语音信号单元与文本单元之间的映射关系，生成与答复文本相对应的答复语音信号，答复文本包括一组文本单元，生成的答复语音信号包括与一组文本单元对应的一组语音单元；标识确定模块，被配置为基于答复文本确定表情和/或动作的标识，其中由虚拟对象呈现表情和/或动作；以及第一输出视频生成模块，被配置为基于答复语音信号、表情和/或动作的标识，生成包括虚拟对象的输出视频，输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开的第一方面的方法。

根据本公开的第四方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行根据本公开的第一方面的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。

图2示出了根据本公开的一些实施例的用于人机交互的过程200的流程图。

图3示出了根据本公开的一些实施例的用于人机交互的方法300的流程图。

图4示出了根据本公开的一些实施例的用于训练对话模型的方法400的流程图。

图5A和图5B分别示出了根据本公开的一些实施例的对话模型网络结构及掩码表的示例。

图6示出了根据本公开的一些实施例的用于生成答复语音信号的方法600的流程图。

图7示出了根据本公开的一些实施例的表情和/或动作的描述的示例700的示意图。

图8示出了根据本公开的一些实施例的用于获取和使用表情和动作识别模型的方法800的流程图。

图9示出了根据本公开的一些实施例的用于生成输出视频的方法900的流程图。

图10示出了根据本公开的一些实施例的用于生成输出视频方法1000的流程图。

图11示出了根据本公开实施例的用于处理图像的装置1100的示意性框图。

图12示出了能够实施本公开的多个实施例的设备1200的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

让机器像真人一样和人类进行交互是人工智能重要目标。现在，机器和人类交互形式从界面交互已经进化到了使用语言交互。然而，传统方案中还只是内容有限的交互或者只是能进行语音的输出。例如交互内容主要局限于有限领域命令式的交互，如“查天气”、“播放音乐”、“设定闹钟”等。此外，交互模式也比较单一，仅有语音或文本交互。此外人机交互还缺乏人格属性，机器更像是一个工具而非对话的人。

为了至少解决上述问题，根据本公开的实施例，提出一种的改进方案。在该方案中，计算设备基于接收的语音信号，生成针对语音信号的答复的答复文本。然后计算设备生成与答复文本相对应的答复语音信号。计算设备基于答复文本确定表情和/或动作的标识，该表情和/或动作由虚拟对象呈现。然后计算设备基于答复语音信号、表情和/或动作的标识，生成包括虚拟对象的输出视频。通过该方法，可以显著的增加交互内容的范围，改进人机交互的质量和水平，提高用户体验。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。该示例环境可用于实现人机交互。该示例环境100包括计算设备108和终端设备104。

终端104中的虚拟对像110，例如虚拟人，可用于与用户102进行交互。在交互过程中，用户102可以向终端104发出询问或聊天语句。终端104可以用于获取用户102的语音信号，并且用虚拟对象110呈现对用户的输入的语音信号的回答，从而实现人机对话。

终端104可以为可以被实现为任何类型的计算设备，包括但不限于移动电话（例如，智能手机）、膝上型计算机、便携式数字助理（PDA）、电子书（电子书）阅读器、便携式游戏机、便携式媒体播放器、游戏机、机顶盒（STB）、智能电视（TV）、个人计算机、膝上型计算机、车载计算机（例如，导航单元）、机器人等。

终端104将获取的语音信号通过网络106传送到计算设备108。计算设备108可以基于从终端104获取的语音信号生成对应的输出视频和输出语音信号以由终端104上的虚拟对象110呈现。

图1中示出了在计算设备108处基于输入的语音信号获取输出视频和输出语音信号的过程，其仅是示例，而非对本公开的具体限定。该过程可以在终端104上实现，或部分在计算设备108上，另一部分在终端104上实现。在一些实施例中，计算设备108和终端104可以集成在一起。图1中示出了计算设备108通过网络106与终端104连接。其仅是示例，而非对本公开的具体限定。计算设备108也可以以其他的方式与终端104连接，例如用网线直接连接。上述示例仅是用于描述本公开，而非对本公开的具体限定。

计算设备108可以被实现为任何类型的计算设备，包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备（诸如移动电话、个人数字助理（PDA）、媒体播放器等）、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual PrivateServer"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

计算设备108对从终端104获取的语音信号进行处理来生成用于回答和输出语音信号和输出视频。

通过该方法，可以显著的增加交互内容的范围，改进人机交互的质量和水平，提高用户体验。

上面图1示出了本公开的多个实施例的能够在其中实现的环境100的示意图。下面结合图2描述用于人机交互的方法200的示意图。该方法200可以由图1中的计算设备108或任意合适的计算设备来实现。

如图2所示，计算设备108获得接收的语音信号202。然后，计算设备108对接收的语音信号进行语音识别（ASR）以生成输入文本204。其中，计算设备108可以使用任意合适的语音识别算法来获得输入文本204。

计算设备108将得到的输入文本204输入对话模型中以获得用于回复的答复文本206。该对话模型是训练好的机器学习模型，其训练的过程可以离线进行。备选地或附加地，该对话模型是神经网络模型，下面将结合图4以及图5A和图5B介绍该对话模型的训练过程。

然后，计算设备108通过语音合成技术（TTS）来利用答复文本206生成答复语音信号208，同时根据答复文本206可进一步识别当前回复使用的表情和/或动作的标识210。在一些实施例中，该标识可以为表情和/或动作标签。在一些实施例中，该标识为表情和/或动作的类型。上述示例仅是用于描述本公开，而非对本公开的具体限定。

计算设备108根据获得的表情和/或动作的标识来生成输出视频212。然后将答复语音信号208和输出视频212发送到终端以在终端上同步播放。

上面图2示出了本公开的多个实施例的用于人机交互的过程200的示意图。下面结合图3描述根据本公开的一些实施例的用于人机交互的方法300的流程图。图3中的方法300中由图1中的计算设备108或任意合适的计算设备执行。

在框302处，基于接收的语音信号，生成针对语音信号的答复的答复文本。例如图2所示，计算设备108基于接收的语音信号202，生成针对接收的语音信号202的答复文本206。

在一些实施例中，计算设备108对对接收的语音信号进行识别，以生成输入文本204。可以采用任意合适的语音识别技术来处理语音信号来获得输入文本。然后计算设备108基于输入文本204获取答复文本206。通过该方法可以快速、高效的获得从用户接收的语音的答复文本。

在一些实施例中，计算设备108将输入文本204和虚拟对象的人格属性输入对话模型以获取答复文本206，对话模型是使用输入文本和虚拟对象的人格属性生成答复文本的机器学习模型。备选地或附加地，该对话模型是神经网络模型。在一些实施例中，该对话模型可以为任意合适的机器学习模型。上述示例仅是用于描述本公开，而非对本公开的具体限定。通过该方法，可民认快速、准确地确定出答复文本。

在一些实施例中，对话模型是利用虚拟对象的人格属性和对话样本训练得到的，对话样本包括输入文本样本和答复文本样本。该对话模型可以由计算设备108离线训练得到。计算设备108先获取虚拟对象的人格属性，人格属性描述虚拟对象的与人有关的特征，例如性别、年龄、星座等与人有关的特性。然后计算设备108基于人格属性和对话样本来训练对话模型，对话样本包括输入文本样本和答复文本样本。在训练时将人格属性和输入文本样本作为输入，将答复文本样本作为输出进行训练。在一些实施例中，对话模型也可以由其他计算设备离线训练。上述示例仅是用于描述本公开，而非对本公开的具体限定。通过该方法，可以快速高效地获得对话模型。

下面结合图4以及图5A和图5B介绍该对话模型的训练。图4示出了根据本公开的一些实施例的用于训练对话模型的方法400的流程图；图5A和图5B示出了根据本公开的一些实施例的对话模型网络结构及使用的掩码表的示例。

如图4所示，在预训练阶段404使用社交平台上自动挖掘的语料库402，例如10亿量级的真人对话语料，来训练对话模型406，使模型具备基础的开放域对话能力；然后获得人工标注对话语料410，例如5万量级具有特定人格属性的对话语料，在人格适配阶段408进一步对对话模型406进行训练使其具备使用指定人格属性对话的能力。该指定人格属性为要在人机交互中使用的虚拟人的人格属性，例如虚拟人的性别、年龄、爱好、星座等。

图5A示出了的对话模型的模型结构，其包括输入504，模型502和进一步的答复512。该模型使用深度学习模型中的Transformer模型，每次使用模型生成答复中的一个词。该过程具体是将人格信息506、输入文本508和答复510中已生成部分（例如词1&2）输入到模型中生成进一步的答复512中的下一个词（3），如此递归生成出完整的答复句子。模型训练时使用图5B中的掩码表514对答复生成进行批处理（Batch）操作以提升效率。

现在返回图3，在框304处，基于语音信号单元与文本单元之间的映射关系，生成与答复文本相对应的答复语音信号，答复文本包括一组文本单元，生成的答复语音信号包括与一组文本单元对应的一组语音信号单元。例如，计算设备108利用预先存储的语音信号单元与文本单元之间的映射关系来生成与答复文本206相对应的答复语音信号208，该答复文本包括一组文本单元，生成的答复语音信号包括与该组文本单元对应的一组语音信号单元。

在一些实施列中，计算设备108将将答复文本206划分为一组文本单元。然后计算设备108基于语音信号单元与文本单元之间的映射关系，获取与一组文本单元中的文本单元相对应的语音信号单元。计算设备108基于语音单元生成答复语音信号。通过该方法，可以快速、高效的生成与答复文本对应的答复语音信号。

在一些实施例中，计算设备108从一组文本单元中选择文本单元。然后计算设备基于语音信号单元与文本单元之间的映射关系，从语音库中查找与文本单元相对应的语音信号单元。通过该方式，可以快速的获得语音信号单元，减少了该过程进行的时间，提高了效率。

在一些实施例中语音库中存储有语音信号单元和文本单元的映射关系，语音库中的语音信号单元是通过对获取的与虚拟对象有关的语音录制数据进行划分得到的，语音库中的文本单元是基于划分得到的语音信号单元确定的。语音库通过如下方式被生成。首先，获取与虚拟对象有关的语音录制数据。例如录制与虚拟对像相对应的真人的声音。然后，将语音录制数据划分为多个语音信号单元。在划分为语音信号单元后，确定与多个语音信号单元相对应的多个文本单元，其中第一些人语音信号单元对应于一个文本单元。然后将多个语音信号单元中的语音信号单元与多个文本单元中的对应的文本单元相关联地存储在语音库中，从而生成的语音库。通过该方式，可以提高获取文本的语音信号单元的效率，节省获取时间。

下面结合图6具体描述生成答复语音信号的过程。其中图6示出了根据本公开的一些实施例的用于生成答复语音信号的方法600的流程图。

如图6所示，为了让机器更加真实的模拟真人聊天，使用和虚拟形象一致的真人的声音进行来生成答复语音信号。该过程600分成离线和在线两个部分。在离线部分中，在框602，采集和虚拟形象一致的真人录音录制数据。然后，在框604后将录制的语音信号的切分成语音单元并和相应的文本单元对齐得到语音库606，语音库中存储的是每个词对应的语音信号。该离线过程可在计算设备108或任意其他合适的设备上进行。

在线部分，根据答复文本中的词序列从语音库606中提取相应语音信号合成输出语音信号。首先，在框608处，计算设备108获得答复文本。然后，计算设备108在将答复文本608划分为一组文本单元。然后在框610处，从语音库606进行与文本单元相对应的语音单元抽取和拼接。然后在框612，生成答复语音信号。因此，可以利用语音库来在线获得答复语音信号。

现在返回图3继续进行描述，在框306处，基于答复文本确定表情和/或动作的标识，其中由虚拟对象呈现表情和/或动作。例如，计算设备108基于答复文本206确定表情和/或动作的标识210，其中由虚拟对象110呈现表情和/或动作。

在一些实施例中，计算设备108将答复文本输入表情和动作识别模型来获得表情和/或动作的标识，表情和动作识别模型是使用文本确定表情和/或动作的标识的机器学习模型。通过该方法，可以快速、准确地利用文本确定出要使用的表情和动作。

下面将结合图7和图8描述表情和/或动作的标识和表情和动作的描述。图7示出了出了根据本公开的一些实施例的表情和/或动作的示例700的示意图；图8示出了根据本公开的一些实施例的用于获取和使用表情和动作识别模型的方法800的流程图。

在对话中，虚拟对象110的表情和动作是由对话内容决定的，虚拟人回复“我很高兴”可以使用开心的表情，回复“你好”可以使用招手的动作，因此表情和动作识别是根据对话模型中的答复文本识别虚拟人的表情和动作标签。该过程包括表情和动作标签体系设定和识别两部分。

在图7中，将对话过程中涉及的高频表情和/或动作设定了11个标签。由于有些场景是表情和动作共同作用，因此在体系中没有严格区分某个标签是表情还是动作。在一些实施例，可以将表情和动作分别设定，然后分配不同的标签或标识。在利用答复文本获得表情和/或动作的标签或标识时可以通过训练的一个模型来获得，也可能以通过训练的针对表情的模型和针对动作的模型分别获得相应的表情标答和动作标签。上述示例仅是用于描述本公开，而非对本公开的具体限定。

表情和动作标签的识别过程如图8所示分离线流程和在线流程。离线流程为，在框802，获得对话文本人工标注表情和动作语料库。在框804训练BERT分类模型，得到表情和动作识别模型806；在线流程中，在框808获得答复文本，然后将答复文本输入表情和动作识别模型806来在框810处进行表情和动作识别。然后，在框812处，输出表情和/或动作的标识。在一些实施例中，该表情和动作识别模型可以使用任意合适的机器学习模型，诸如各种合适的神经网络模型。

现在返回图3继续进行描述，在框308处，基于答复语音信号、表情和/或动作的标识，生成包括虚拟对象的输出视频，输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。例如，计算设备108基于答复语音信号208、表情和/或动作的标识210，生成包括虚拟对象110的输出视频212。在输出视频中包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。该过程下面将结合图9和图10进行详细描述。

在一些实施例中，计算设备108相关联地输出答复语音信号208和输出视频212。通过该方法可生成正确的匹配的语音和视频信息。在该过程中，通过在时间上同步答复语音信号208 和输出视频212来向用户进行交流。

上面结合图3-8 描述了根据本公开的一些实施例的用于人机交互的方法300的流程图。下面结合图9详细描述基于答复语音信号、表情和/或动作的标识，生成输出视频的过程。图9示出了根据本公开的一些实施例的用于生成输出视频的方法900的流程图。

在框902处，计算设备108将答复语音信号划分为一组语音信号单元。在一些实施例中，计算设备108以字为单位划分语音信号单元。在一些实施例中，计算设备108以音节为单位划分语音信号单元。上述示例仅是用于描述本公开，而非对本公开的具体限定。本领域技术人员可以以任意合适的语音大小来划分语音单元。

在框904处，计算设备108获取与一组语音信号单元相对应的虚拟对象的唇形序列。计算设备108可以从对应的数据库中查找每个语音信号对应的唇形视频。在生成语音信号单元与唇形的对应关系时，先录制与虚拟对象相对应的真人的发声视频，然后从视频中提取与语音信号单元相对应的唇形。然后，将唇形和语音信号单元相关联的存储在数据库中。

在框906处，计算设备108基于表情和/或动作的标识，获取针对虚拟对象的对应表情和/或动作的视频片段。数据库中或存储装置中预先存储了表情和/或动作的标识和对应的表情和/或动作的视频片段的映射关系。在获得标识后，例如表情和/或动作的标签或类型，利用表情和/或动作的标识和视频片段的映射关系可以查找对应的视频。

在框908处，计算设备108将唇形序列结合到视频片段中以生成输出视频。计算设备按照时间将获得的与一组语音信号单元相对应的唇形序列结合到视频片段每个帧中。

在一些实施例中，计算设备108确定视频片段中在时间轴上的预定时间位置处的视频帧。然后计算设备108从唇形序列中获取与预定时间位置相对应的唇形。在得到唇形后，计算设备108将唇形结合到视频帧，从而生成输出视频。通过该方式，可以快速获得包括正确唇形的视频。

通过该方法，可以使得虚拟人的唇形能更准确的匹配声音和动作，改进了用户体验。

上面结合图9 描述了根据本公开的一些实施例的用于生成输出视频的方法900的流程图。下面结合图10描述根据进一步描述于生成输出视的过程。图10示出了根据本公开的一些实施例的用于生成输出视频方法1000的流程图。

在图10中，生成视频包括根据答复语音信号和和表情动作标签合成虚拟人的视频片段。该过程如图10所示，包括唇形视频获取、表情动作视频获取和视频渲染三部分。

唇形视频的获取过程分在线流程和离线流程。在离线流程中，在框1002处，进行语音及对应唇形真人视频的拍摄。然后在框1004处，进行真人的语音和唇形视频对齐。在该过程中，获得每个语音单元对应的唇形视频。然后，将得到语音单元和唇形视频对应地存储在语音唇形库1006中。在线流程中，在框1008处，计算设备108获得答复语音信号。然后，在框1010处，计算设备108将答复语音信号划分为语音信号单元，然后从唇形数据库1006根据语音信号单元提取相应的唇形。

表情动作视频获取过程也分为在线流程和离线流程。在离线流程中，在框1014处，拍摄真人的表情动作视频。然后，在框1016处，将视频切分得到每个表情和/或动作标识对应的视频，即将表情和/或动作和视频单元对齐。然后，将表情和/或动作标签与视频对应地存储在表情和/或动作库1018中。在一些实施列中，表情和/或动作库1018中储表情和/或动作的标识与对应视频之间的映射关系。在一些实施例中，在表情和/或动作库中，使用表情和/或动作标识利用多级映射找到对应视频。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在线阶流程中，在框1012处，计算设备108获取输入表情和/动作的标识。然后在框1020处，根据表情和/或动作的标识提取视频片段。

然后在框1022处，将唇形序列组合到视频片段。在该过程中，表情和动作标签对应的视频是由时间轴上的视频帧拼接成的，根据唇形序列把每一个唇形渲染到时间轴上相同位置的视频帧中，最终输出组合的视频。然后在框1024处，生成输出视频。

图11示出了根据本公开实施例的用于处理图像的装置1100的示意性框图。如图11所示，装置1100包括答复文本生成模块1102，被配置为基于接收的语音信号，生成针对语音信号的答复的答复文本。装置1100还包括第一答复语音信号生成模块1104，被配置为基于语音信号单元与文本单元之间的映射关系，生成与答复文本相对应的答复语音信号，答复文本包括一组文本单元，生成的答复语音信号包括与一组文本单元对应的一组语音单元。装置1100还包括标识确定模块1106，被配置为基于答复文本确定表情和/或动作的标识，其中由虚拟对象呈现表情和/或动作。装置1100还包括第一输出视频生成模块1108，被配置为基于答复语音信号、表情和/或动作的标识，生成包括虚拟对象的输出视频，输出视频包括基于答复语音信号确定的、要由虚拟对象呈现的唇形序列。

在一些实施例中，答复文本生成模块1102包括输入文本生模块，被配置为对接收的语音信号进行识别，以生成输入文本；以及答复文本获取模块，被配置为基于输入文本获取答复文本。

在一些实施例中，答复文本生成模块包括基于模型的答复文本获取模块，被配置为将输入文本和虚拟对象的人格属性输入对话模型以获取答复文本，对话模型是使用输入文本和虚拟对象的人格属性生成答复文本的机器学习模型。

在一些实施例中，对话模型是利用虚拟对象的人格属性和对话样本训练得到的，对话样本包括输入文本样本和答复文本样本。

在一些实施例中，第一答复语音信号生成模块包括文本单元划分模块，被配置为将答复文本划分为一组文本单元；语音信号单元获取模块，被配置为基于语音信号单元与文本单元之间的映射关系，获取与一组文本单元中的文本单元相对应的语音信号单元；以及第二答复语音信号生成模块，被配置为基于语音单元生成答复语音信号。

在一些实施例中，语音信号单元获取模块包括文本单元选择模块，被配置基于语音信号单元与文本单元之间的映射关系，为从一组文本单元中选择文本单元；查找模块，被配置为从语音库中查找与文本单元相对应的语音信号单元。

在一些实施例中，语音库中存储有语音信号单元和文本单元的所述映射关系，语音库中的语音信号单元是通过对获取的与所述虚拟对象有关的语音录制数据进行划分得到的，语音库中的文本单元是基于划分得到的语音信号单元确定的。

在一些实施例中，标识确定模块1106包括表情动作标识获取模块，被配置为将答复文本输入表情和动作识别模型来获得表情和/或动作的标识，表情和动作识别模型是使用文本确定表情和/或动作的标识的机器学习模型。

在一些实施例中，第一输出视频生成模块1108包括划分模块，被配置为将答复语音信号划分为一组语音信号单元；唇形序列获取模块，被配置为获取与一组语音信号单元相对应的虚拟对象的唇形序列；视频片段获取模块，被配置为基于表情和/或动作的标识，获取针对虚拟对象的对应表情和/或动作的视频片段；以及第二输出视频生成模块，被配置为将唇形序列结合到视频片段中以生成输出视频。

在一些实施例中，第二输出视频生成模块包括视频帧确定模块，被配置为确定视频片段中在时间轴上的预定时间位置处的视频帧；唇形获取模块，被配置为从唇形序列中获取与预定时间位置相对应的唇形；结合模块，被配置为将唇形结合到视频帧以用于生成输出视频。

在一些实施例中，装置1100还包括输出模块，被配置为相关联地输出答复语音信号和输出视频。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。图1中的终端104和计算设备108可由电子设备1200实现。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器（ROM）1202中的计算机程序或者从存储单元1208加载到随机访问存储器（RAM）1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出（I/O）接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如方法200、300、400、600、800、900和1000。例如，在一些实施例中，方法200、300、400、600、800、900和1000可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的方法200、300、400、600、800、900和1000的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法200、300、400、600、800、900和1000。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于人机交互的方法，包括：

基于接收的语音信号，生成针对所述语音信号的答复的答复文本；

基于语音信号单元与文本单元之间的映射关系，生成与所述答复文本相对应的答复语音信号，所述答复文本包括一组文本单元，生成的所述答复语音信号包括与所述一组文本单元对应的一组语音信号单元；

基于所述答复文本确定表情和/或动作的标识，其中由虚拟对象呈现所述表情和/或动作；以及

基于所述答复语音信号、所述表情和/或动作的标识，生成包括所述虚拟对象的输出视频，所述输出视频包括基于所述答复语音信号确定的、要由所述虚拟对象呈现的唇形序列；

其中生成所述输出视频包括：

基于所述表情和/或动作的标识，获取针对所述虚拟对象的对应于表情和/或动作的视频片段；

将所述答复语音信号划分为一组语音信号单元；

获取与所述一组语音信号单元中的每个语音信号单元相对应的所述虚拟对象的唇形以形成与所述一组语音信号单元相对应的唇形序列；以及

将所述唇形序列结合到所述对应于表情和/或动作的视频片段中以生成所述输出视频；

其中获取针对所述虚拟对象的对应于表情和/或动作的视频片段包括：

获取预先存储的参考表情和动作的标识及参考视频片段的映射关系；

从预先存储的参考表情和动作的标识中确定与所述表情和动作的标识相对应的目标参考表情和动作的标识；以及

基于所述映射关系，获取与所述目标参考表情和动作的标识相对应的目标参考视频片段以作为所述对应于表情和/或动作的视频片段。

2.根据权利要求1所述的方法，其中生成所述答复文本包括：

对所述接收的语音信号进行识别，以生成输入文本；以及

基于所述输入文本获取所述答复文本。

3.根据权利要求2所述的方法，其中基于所述输入文本获取所述答复文本包括：

将所述输入文本和所述虚拟对象的人格属性输入对话模型以获取所述答复文本，所述对话模型是使用输入文本和所述虚拟对象的人格属性生成答复文本的机器学习模型。

4.根据权利要求3所述的方法，其中所述对话模型是利用所述虚拟对象的人格属性和对话样本训练得到的，所述对话样本包括输入文本样本和答复文本样本。

5.根据权利要求1所述的方法，其中生成所述答复语音信号包括：

将所述答复文本划分为一组文本单元；

基于语音信号单元与文本单元之间的映射关系，获取与所述一组文本单元中的文本单元相对应的语音信号单元；以及

基于所述语音单元生成所述答复语音信号。

6.根据权利要求5所述的方法，其中获取所述语音信号单元包括：

从所述一组文本单元中选择所述文本单元；

基于语音信号单元与文本单元之间的映射关系，从语音库中查找与所述文本单元相对应的所述语音信号单元。

7.根据权利要求6所述的方法，其中所述语音库中存储有语音信号单元和文本单元的所述映射关系，语音库中的语音信号单元是通过对获取的与所述虚拟对象有关的语音录制数据进行划分得到的，语音库中的文本单元是基于划分得到的语音信号单元确定的。

8.根据权利要求1所述的方法，其中确定所述表情和/或动作的标识包括：

将所述答复文本输入表情和动作识别模型来获得所述表情和/或动作的标识，所述表情和动作识别模型是使用文本确定表情和/或动作的标识的机器学习模型。

9.根据权利要求1所述的方法，其中将所述唇形序列结合到所述对应于表情和/或动作的视频片段中以生成所述输出视频包括：

确定所述对应于表情和/或动作的视频片段中在时间轴上的预定时间位置处的视频帧；

从所述唇形序列中获取与所述预定时间位置相对应的唇形；

将所述唇形结合到所述视频帧以用于生成所述输出视频。

10.根据权利要求1所述的方法，还包括：

相关联地输出所述答复语音信号和所述输出视频。

11.一种用于人机交互的装置，包括：

答复文本生成模块，被配置为基于接收的语音信号，生成针对所述语音信号的答复的答复文本；

第一答复语音信号生成模块，被配置为基于语音信号单元与文本单元之间的映射关系，生成与所述答复文本相对应的答复语音信号，所述答复文本包括一组文本单元，生成的所述答复语音信号包括与所述一组文本单元对应的一组语音单元；

标识确定模块，被配置为基于所述答复文本确定表情和/或动作的标识，其中由虚拟对象呈现所述表情和/或动作；以及

第一输出视频生成模块，被配置为基于所述答复语音信号、所述表情和/或动作的标识，生成包括所述虚拟对象的输出视频，所述输出视频包括基于所述答复语音信号确定的、要由所述虚拟对象呈现的唇形序列；

其中所述第一输出视频生成模块包括：

视频片段获取模块，被配置为基于所述表情和/或动作的标识，获取针对所述虚拟对象的对应于表情和/或动作的视频片段；

语音信号划分模块，被配置为将所述答复语音信号划分为一组语音信号单元；

唇形序列获取模块，被配置为获取与所述一组语音信号单元中的每个语音信号单元相对应的所述虚拟对象的唇形以形成与所述一组语音信号单元相对应的唇形序列；以及

第二输出视频生成模块，被配置为将所述唇形序列结合到所述对应于表情和/或动作的视频片段中以生成所述输出视频；

其中所述视频片段获取模块包括：

映射关系获取模块，被配置为获取预先存储的参考表情和动作的标识及参考视频片段的映射关系；

目标参考表情和动作的标识确定模块，被配置为从预先存储的参考表情和动作的标识中确定与所述表情和动作的标识相对应的目标参考表情和动作的标识；以及

目标参考视频片段确定模块，被配置为基于所述映射关系，获取与所述目标参考表情和动作的标识相对应的目标参考视频片段以作为所述对应于表情和/或动作的视频片段。

12.根据权利要求11所述的装置，其中所述答复文本生成模块包括：

输入文本生模块，被配置为对所述接收的语音信号进行识别，以生成输入文本；以及

答复文本获取模块，被配置为基于所述输入文本获取所述答复文本。

13.根据权利要求12所述的装置，其中所述答复文本获取模块包括：

基于模型的答复文本获取模块，被配置为将所述输入文本和所述虚拟对象的人格属性输入对话模型以获取所述答复文本，所述对话模型是使用输入文本和所述虚拟对象的人格属性生成答复文本的机器学习模型。

14.根据权利要求13所述的装置，其中所述对话模型是利用所述虚拟对象的人格属性和对话样本训练得到的，所述对话样本包括输入文本样本和答复文本样本。

15.根据权利要求11所述的装置，其中所述第一答复语音信号生成模块包括：

文本单元划分模块，被配置为将所述答复文本划分为一组文本单元；

语音信号单元获取模块，被配置为基于语音信号单元与文本单元之间的映射关系，获取与所述一组文本单元中的文本单元相对应的语音信号单元；以及

第二答复语音信号生成模块，被配置为基于所述语音单元生成所述答复语音信号。

16.根据权利要求15所述的装置，其中所述语音信号单元获取模块包括：

文本单元选择模块，被配置为从所述一组文本单元中选择所述文本单元；

查找模块，被配置为基于语音信号单元与文本单元之间的映射关系，从语音库中查找与所述文本单元相对应的所述语音信号单元。

17.根据权利要求16所述的装置，其中所述语音库中存储有语音信号单元和文本单元的所述映射关系，语音库中的语音信号单元是通过对获取的与所述虚拟对象有关的语音录制数据进行划分得到的，语音库中的文本单元是基于划分得到的语音信号单元确定的。

18.根据权利要求11所述的装置，其中所述标识确定模块包括：

表情动作标识获取模块，被配置为将所述答复文本输入表情和动作识别模型来获得所述表情和/或动作的标识，所述表情和动作识别模型是使用文本确定表情和/或动作的标识的机器学习模型。

19.根据权利要求11所述的装置，其中所述第二输出视频生成模块包括：

视频帧确定模块，被配置为确定所述对应于表情和/或动作的视频片段中在时间轴上的预定时间位置处的视频帧；

唇形获取模块，被配置为从所述唇形序列中获取与所述预定时间位置相对应的唇形；

结合模块，被配置为将所述唇形结合到所述视频帧以用于生成所述输出视频。

20.根据权利要求11所述的装置，还包括：

输出模块，被配置为相关联地输出所述答复语音信号和所述输出视频。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。