CN117271751B

CN117271751B - 交互方法、装置、设备和存储介质

Info

Publication number: CN117271751B
Application number: CN202311531971.4A
Authority: CN
Inventors: 蔡小伟; 叶汉平; 郭振城
Original assignee: Beijing Baiwu Tech Co ltd
Current assignee: Beijing Baiwu Tech Co ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-02-13
Anticipated expiration: 2043-11-16
Also published as: CN117271751A

Abstract

本发明实施例提供一种交互方法、装置、设备和存储介质，该方法包括：获取用户与数字化的目标古人进行交互时发送的第一交互信息；将第一交互信息输入目标语言模型，以生成用于响应第一交互信息的第二交互信息，第二交互信息为具有目标古人语言特点的文言文。其中，目标语言模型通过如下方式训练得到：将获取到的与目标古人存在关联的第一语料信息输入第一语言模型，以从第一语料信息中筛选出内容正确的语料信息作为第二语料信息；将第二语料信息输入第二语言模型，以生成与第二语料信息内容匹配的问答对，问答对中的答案为文言文；将问答对输入待训练语言模型以训练得到目标语言模型。通过该方案，实现了以文言文的形式与用户进行人机交互。

Description

交互方法、装置、设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种交互方法、装置、设备和存储介质。

背景技术

在一些人机交互场景中，为了满足历史文化宣传、古代人物介绍等各种场景使用需求，通常会设计一些具有古代人物特征的数字化人物形象与用户进行交互。文言文是中国古代的一种书面语言，相对于白话文而言，文言文的表达往往更为简洁典雅。若在人机交互时，向用户发送的文字或语音等交互信息能够以文言文的形式进行表达，则能够进一步提升用户在人机交互时的沉浸式体验。

发明内容

本发明实施例提供一种交互方法、装置、设备和存储介质，用以实现以文言文的形式与用户进行人机交互，提升用户在人机交互时的沉浸式体验。

第一方面，本发明实施例提供一种交互方法，所述方法包括：

获取用户与数字化的目标古人进行交互时发送的第一交互信息；

将所述第一交互信息输入目标语言模型，以生成用于响应所述第一交互信息的第二交互信息，所述第二交互信息为具有所述目标古人语言特点的文言文；

其中，所述目标语言模型通过如下方式训练得到：

将获取到的与所述目标古人存在关联的第一语料信息输入第一语言模型，以从所述第一语料信息中筛选出内容正确的语料信息作为第二语料信息；

将所述第二语料信息输入第二语言模型，以生成与所述第二语料信息内容匹配的问答对，所述问答对中的问题为文言文或白话文，所述问答对中的答案为文言文；

将所述问答对输入待训练语言模型以训练得到目标语言模型；其中，所述待训练语言模型包括预训练好的第三语言模型以及针对所述第三语言模型中的权重矩阵构建的目标权重矩阵；在训练时，所述第三语言模型的模型参数保持不变，调整所述目标权重矩阵的权重参数。

第二方面，本发明实施例提供一种交互装置，所述装置包括：

获取模块，用于获取用户与数字化的目标古人进行交互时发送的第一交互信息；

输出模块，用于将所述第一交互信息输入目标语言模型，以生成用于响应所述第一交互信息的第二交互信息，所述第二交互信息为具有所述目标古人语言特点的文言文；

处理模块，用于将获取到的与所述目标古人存在关联的第一语料信息输入第一语言模型，以从所述第一语料信息中筛选出内容正确的语料信息作为第二语料信息；将所述第二语料信息输入第二语言模型，以生成与所述第二语料信息内容匹配的问答对，所述问答对中的问题为文言文或白话文，所述问答对中的答案为文言文；将所述问答对输入待训练语言模型以训练得到目标语言模型；其中，所述待训练语言模型包括预训练好的第三语言模型以及针对所述第三语言模型中的权重矩阵构建的目标权重矩阵；在训练时，所述第三语言模型的模型参数保持不变，调整所述目标权重矩阵的权重参数。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第一方面所述的交互方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的交互方法。

本发明实施例提供的方案，用于实现文言文形式的人机交互，其中，文言文形式的人机交互可以理解为：终端设备能够以文言文形式的交互信息对用户的交互操作进行响应。为提升用户在人机交互的沉浸式体验，终端设备的界面上配置有数字化的目标古人，从而使得用户在人机交互时感觉在与目标古人进行对话，其中，数字化的目标古人指具有古人特征的数字化人物形象。在人机交互过程中，终端设备先获取用户与数字化的目标古人进行交互时发送的第一交互信息；之后，将第一交互信息输入目标语言模型，以生成用于响应第一交互信息的第二交互信息，第二交互信息为具有目标古人语言特点的文言文。其中，目标语言模型通过如下方式训练得到：首先，将获取到的与目标古人存在关联的第一语料信息输入第一语言模型，以从第一语料信息中筛选出内容正确的语料信息作为第二语料信息；然后，将第二语料信息输入第二语言模型，以生成与第二语料信息内容匹配的问答对，问答对中的问题为文言文或白话文，问答对中的答案为文言文；最后，将问答对输入待训练语言模型以训练得到目标语言模型；其中，待训练语言模型包括预训练好的第三语言模型以及针对第三语言模型中的权重矩阵构建的目标权重矩阵；在训练时，第三语言模型的模型参数保持不变，调整目标权重矩阵的权重参数。

本方案中，基于训练得到的目标语言模型，实现了以文言文的形式响应用户的交互信息，提升了用户在与数字化的目标古人进行人机交互时的沉浸式体验。在训练得到目标语言模型过程中，通过第一语言模型对获取到的第一语料信息进行正确性的判断，筛选出了内容正确的第二语料信息以用于目标语言模型的训练，保证了训练样本的准确性，提升了目标语言模型的准确性；另外，由于在训练得到目标语言模型过程中，第三语言模型的模型参数保持不变，仅对目标权重矩阵的权重参数进行了调整，也即目标语言模型的训练过程中仅需对少量参数进行调整，从而可以明显提升模型的训练效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种交互方法的流程图；

图2为本发明实施例提供的一种目标语言模型的训练过程示意图；

图3为本发明实施例提供的另一种交互方法的流程图；

图4为本发明实施例提供的一种数字化的目标古人口型画面切换的示意图；

图5为本发明实施例提供的一种交互装置的结构示意图；

图6为与图5所示实施例提供的交互装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

自然语言处理（Natural Language Processing，简称NLP），即将人类之间交流沟通所用的自然语言进行处理，以将之转换为机器能理解的机器语言的过程。通过研究表示语言能力和语言应用的语言模型，自然语言处理实现了人机交互，打破了人类与计算机之间的交流壁垒。其中，语言模型广泛应用于语音识别、机器翻译、人机对话等场景。

在人机对话的场景中，机器通过语言模型理解用户所发送的交互信息，并通过文字、语音、视频等形式对用户发送的交互信息进行响应，其中，机器所发送的响应信息的内容以白话文的形式表达，还是以文言文的形式表达，会影响用户的使用体验。比如：在通过使用语言模型实现与数字化的古代人物角色朱熹进行人机交互的场景中，如果针对用户发送的交互信息“你好，请问你是谁？”，机器输出的响应信息“我是朱熹，听到了你的问候，我也向你致意。有什么事情需要咨询吗？我愿意倾听。”以白话文的形式进行表达，则用户与古人朱熹对话的感觉并不强烈；而当机器输出的响应信息“吾乃朱熹，闻汝之问候，亦向汝致意。何事相询，熹愿倾听才是。”以文言文的形式进行表达，则用户会较为明显的感受到古代文人的气息，提升用户与古人朱熹人机交互的沉浸式体验。

因此，在一些与历史文化宣传、古代人物介绍等与古人相关的人机交互场景，能够以文言文形式的交互信息对用户的交互操作进行响应是非常有必要的。为实现文言文形式的人机交互，本发明实施例提供了一种交互方法，以下结合具体实施例进行展开说明。

本发明实施例提供的交互方法可以由一电子设备来执行，该电子设备可以是诸如PC机、笔记本电脑、智能手机等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为虚拟服务器，或者也可以为云端服务器或服务器集群。

图1为本发明实施例提供的一种交互方法的流程图，如图1所示，可以包括如下步骤：

101、获取用户与数字化的目标古人进行交互时发送的第一交互信息。

102、将第一交互信息输入目标语言模型，以生成用于响应第一交互信息的第二交互信息，第二交互信息为具有目标古人语言特点的文言文。

其中，目标语言模型通过如下方式训练得到：

首先，将获取到的与目标古人存在关联的第一语料信息输入第一语言模型，以从第一语料信息中筛选出内容正确的语料信息作为第二语料信息。然后，将第二语料信息输入第二语言模型，以生成与第二语料信息内容匹配的问答对，问答对中的问题为文言文或白话文，问答对中的答案为文言文。最后，将问答对输入待训练语言模型以训练得到目标语言模型；其中，待训练语言模型包括预训练好的第三语言模型以及针对第三语言模型中的权重矩阵构建的目标权重矩阵；在训练时，第三语言模型的模型参数保持不变，调整目标权重矩阵的权重参数。

可以理解的是，利用图1实施例中的交互方法进行人机交互的过程，也即目标语言模型的使用过程。为便于理解，先对目标语言模型的训练过程进行说明，之后再对目标语言模型的使用过程进行说明。

本实施例中，语言模型可以是相关技术中的任一种语言模型，本方案并不对语言模型的模型类别进行限定。由于本方案中涉及的多个语言模型分别用于实现不同的功能，为便于表述，按照其功能的不同，用“第一”、“第二”等将其进行区分，比如：第一语言模型、第二语言模型等。

图2为本发明实施例提供的一种目标语言模型的训练过程示意图，以下结合图2对目标语言模型的训练过程进行说明。

由于目标语言模型要实现模拟目标古人用文言文与用户进行人机交互，因此，在进行模型训练之前，要先获取与目标古人存在关联的语料信息。

可选地，目标古人可以是具体的某一个古代人物，比如：朱熹，也可以用于代表某一个时期的古代人物，比如：唐朝的古人。目标古人所代表的对象不同，对应的获取的与目标古人存在关联的语料信息也可进行灵活选择。比如：当目标古人代表一个具体的人物时，获取的语料信息可以为：目标古人的外貌形象、代表作品、人物传记等语料信息；而当目标古人代表某个朝代的人物时，获取的语料信息则可以为：该朝代的古人的语言习惯等语料信息。

实际应用中，通过各种搜索引擎获取到的语料信息的内容并不都是正确的，比如：获取到的语料信息中描述“朱熹是元朝人”，而实际上朱熹是南宋人。为保证模型训练的准确性，需要对获取到的语料信息进行内容正确性的判断，本方案中，第一语言模型用于对语料信息内容的正确性进行判断。

为便于区分，本方案中，将进行内容正确性判断之前的语料信息称为第一语料信息，将第一语料信息进行内容正确性判断后确定内容正确的语料信息称为第二语料信息，第一语料信息进行内容正确性判断后确定内容错误的语料信息称为第三语料信息，第一语料信息包括第二语料信息和第三语料信息。

具体实施过程中，将第一语料信息输入第一语言模型，由第一语言模型判断第一语料信息是否正确，从而实现从第一语言信息中筛选出内容正确的语料信息作为第二语料信息，以将第二语料信息用于目标语言模型的训练。

可选地，针对通过第一语言模型筛选出的第二语料信息，还可进行人工二次筛选，以进一步保证语料信息内容的正确性，弥补第一语言模型由于对个别语料信息无法进行内容正确性判断而导致误判的缺陷。

目标语言模型应用于人机交互场景，相应地，其训练样本应至少包括问答对，从而目标语言模型在使用过程中能够实现问答交互。

本方案中，第二语言模型用于根据输入的第二语料信息生成问答对，以作为目标语言模型的训练样本。鉴于本方案中目标语言模型要实现文言文问答，从而针对第二语言模型生成的问答对中的任一个问答对，问答对的答案为文言文，问答对的问题可以为文言文也可以为白话文。其中，第二语言模型的训练样本包括多组“语料信息-问答对”样本，第二语言模型通过对多组“语料信息-问答对”样本的学习，使得模型具有根据语料信息生成问答对的能力，其中，语料信息可以是一句话、一段话等。

可以理解的是，第二语言模型生成的问答对的内容与第二语料信息包含的内容在含义上应当是匹配的。举例来说，假设输入第二语言模型的第二语料信息为“朱熹，南宋时期的诗人，生于1130年，死于1200年”，其对应生成的问答对可以包括：“‘你叫什么？’‘吾乃朱熹’”、“‘你是哪朝人？’‘吾乃南宋人士’”等等。

可选地，在通过第二语言模型生成问答对后，还可以将这些问答对输入第四语言模型，以获取与这些问答对内容匹配的目标问答对。本方案中，第四语言模型用于对已生成的问答对进行数量的扩充，通过第四语言模型生成的目标问答对的数量大于输入第四语言模型的问答对的数量。在进行问答对扩充时，第四语言模型生成的目标问答对与输入第四语言模型的问答对在表达上存在区别，比如：目标问答对是通过对输入第四语言模型的问答对中的某些词语进行同义词或近义词替换得到的，或者目标问答对是通过对输入第四语言模型的问答对中的问题或答案的语序进行调整得到的。

在获取到问答对和/或目标问答对之后，将问答对和/或目标问答对输入待训练语言模型以训练得到目标语言模型。以下以将问答对输入待训练语言模型以训练得到目标语言模型为例进行说明。

为了加快目标语言模型的训练速度，待训练语言模型包括预训练好的第三语言模型以及针对第三语言模型中的权重矩阵构建的目标权重矩阵。在训练时，保持第三语言模型的模型参数保持不变，仅调整目标权重矩阵的权重参数。由于目标权重矩阵是针对第三语言模型中的权重构建的，因此，调整后的目标权重矩阵可以和第三语言模型结合使用，干涉第三语言模型产生的结果，第三语言模型被干涉后产生的结果即为目标语言模型的输出结果。假设第三语言模型的权重矩阵为A，训练之后的目标权重矩阵为B，则目标语言模型在进行模型推理时对应的权重矩阵W=A+B。

本方案中，从模型的规模来看，第三语言模型的模型规模要明显大于目标权重矩阵，相较于直接调整第三语言模型的权重参数而言，本方案中对目标权重矩阵的权重参数进行调整，需要调整的参数数量更少，从而模型的训练速度也更快。

基于本方案中目标语言模型训练方法，还能够节省模型存储时占用的储存空间。如上文所述，在训练待训练语言模型以得到目标语言模型的过程中，第三语言模型的权重矩阵保持不变，仅调整目标权重矩阵，因此，针对不同的目标古人，可通过训练分别得到不同的目标古人各自对应的目标权重矩阵。之后，在进行模型存储时，一个目标语言模型中可以包含一个第三语言模型和多个目标权重矩阵。举例来说，假设针对8个不同目标古人比如：唐宋八大家包含的8位古人，通过模型训练得到了调整后的8个不同的目标权重矩阵，若第三语言模型的大小为2GB，目标权重矩阵的大小为0.01GB，当针对8个目标古人分别存储一个目标语言模型时，其占用的存储空间为（2+0.01）*8GB，而当针对8个目标古人存储一个目标语言模型时，其占用的存储空间为（2+0.01*8）GB。可见，针对具有相同第三语言模型的目标语言模型进行共同存储，能够节省很多存储空间。针对上述目标语言模型存储方式，在使用过程中，可以设置选择不同的目标权重矩阵与第三语言模型结合使用，以满足当前场景的使用需求。

以上为目标语言模型的训练过程，以下对目标语言模型的使用过程进行说明。

本实施例中，将人机交互过程中的交互信息划分为第一交互信息和第二交互信息。其中，第一交互信息指由用户发送的交互信息，第二交互信息指由预先配置的目标语言模型向用户反馈的交互信息，其中，目标语言模型用于模拟目标古人用文言文与用户进行人机交互。本方案中，并不对第一交互信息的表达形式进行限制，第一交互信息可以是文言文也可以是白话文，而第二交互信息的表达形式被限定为具有目标古人语言特点的文言文。

在人机交互过程中，终端设备接收用户与数字化的目标古人进行交互时发送的第一交互信息；之后，将第一交互信息输入目标语言模型，以基于目标语言模型生成用于响应第一交互信息的第二交互信息，第二交互信息为具有目标古人语言特点的文言文。

目标语言模型在根据第一交互信息生成第二交互信息时，在一可选实施例中，可以先从目标语言模型对应的训练样本集中确定与第一交互信息匹配的目标数据，比如：将训练样本集中的数据以及第一交互信息进行向量化后，根据向量之间的距离，确定训练样本集中与第一交互信息距离小于设定阈值的数据为目标数据；然后，根据目标数据，生成用于响应第一交互信息的第二交互信息。

基于上文中目标语言模型的训练过程可知，目标语言模型包括两部分：第三语言模型和目标权重矩阵，本方案中，将用于调整目标权重矩阵以训练得到目标语言模型的样本集称为第一训练样本集，将用于训练得到第三语言模型的样本集称为第二训练样本集，目标语言模型对应的训练样本集包括：第一训练样本集和第二训练样本集。

从训练样本集的包含的样本数量来看，第一训练样本集包含的样本数量小于第二训练样本集，为加快第二交互信息的生成速度，可选地，可以先从第一训练样本集中确定目标数据，当第一训练样本集中不存在目标数据时，再从第二训练样本集中确定目标数据。

具体地，若第一训练样本集中存在与第一交互信息相似度大于第一设定阈值的第一样本数据，则根据第一样本数据确定目标数据。若第一训练样本集中不存在与第一交互信息相似度大于第一设定阈值的第一样本数据，则根据第二训练样本集中与第一交互信息相似度大于第二设定阈值的第二样本数据，确定目标数据。可选地，第二设定阈值可以等于第一设定阈值，也可以小于第一设定阈值。

可以理解的是，第一训练样本集中至少包括输入待训练语言模型的问答对，在具体实施过程中，可选地，若第一训练样本集包含的问答对中存在与第一交互信息相似度大于第一设定阈值的目标问题，则根据目标问题，确定目标问题对应问答对中的答案为目标数据。举例来说，假设第一训练样本中包括：问答对1、问答对2、…、问答对N（N为整数），其中，问答对1中包括问题1和答案1，问题2中包括问题2和答案2，以此类推。在确定第二交互信息时，首先，确定第一训练样本的问题1、问题2、…问题N中是否存在与第一交互信息相似度大于第一设定阈值的目标问题，假设问题1第一交互信息之间的相似度最大且大于设定阈值，则确定目标问题为问题1，并将问题1对应的答案1确定为目标数据。可选地，可以直接将答案1作为第二交互信息，也可以对答案1中的部分内容进行替换或语序调整，从而保证输出的第二交互信息的多样性。

综上，本方案中，首先，将获取到的与目标古人存在关联的第一语料信息输入第一语言模型，从第一语料信息中筛选出内容正确的语料信息作为第二语料信息；然后，将第二语料信息输入第二语言模型，生成与第二语料信息内容匹配的问答对，问答对中的问题为文言文或白话文，问答对中的答案为文言文；最后，将问答对输入待训练语言模型以训练得到目标语言模型；其中，待训练语言模型包括预训练好的第三语言模型以及针对第三语言模型中的权重矩阵构建的目标权重矩阵；在训练时，第三语言模型的模型参数保持不变，调整目标权重矩阵的权重参数。在上述目标语言模型的生成过程中，通过第一语言模型对获取到的第一语料信息进行正确性的判断，筛选出了内容正确的第二语料信息以用于目标语言模型的训练，保证了训练样本的准确性，提升了目标语言模型的准确性；在训练得到目标语言模型过程中，第三语言模型的模型参数保持不变，仅对目标权重矩阵的权重参数进行了调整，可以明显提升模型的训练效率。由于目标语言模型具有模拟目标古人用文言文与用户进行人机交互的能力，从而在获取用户与数字化的目标古人进行交互时发送的第一交互信息后，通过将第一交互信息输入目标语言模型，生成用于响应第一交互信息的第二交互信息，其中，第二交互信息为具有目标古人语言特点的文言文，从而可以提升用户在与数字化的目标古人进行人机交互时的沉浸式体验。

前述实施例的方案说明了在获取到用户发送的第一交互信息之后，如何基于目标语言模型生成具有目标古人语言特点的文言文形式的第二交互信息。实际应用中，第二交互信息在生成之后，其传递给用户的方式是多样的，比如：可以通过文字、语音、视频等方式将第二交互信息展示给用户。

本实施例中，以视频为例进行举例说明，需要说明的是，此处的视频实际上是指在播放第二交互消息对应的音频的同时，同步展示数字化的目标古人图像画面。其中，数字化的目标古人也即数字人，是一种运用数字技术创造出来的、与人类形象接近的数字化古代人物形象，其通过展示逼真的外貌、表情、口型和肢体等画面，使用户感觉在与真人进行互动。

理想情况下，数字化的目标古人的口型画面应随着音频的播放同步发生变化，从图像画面上看贴近于真人讲话时的口型变化。但是，实际应用中，使数字化的目标古人的口型画面贴近于真人讲话的口型变化是比较困难的，往往容易出现口型画面与真人讲话的口型不匹配的情况，比如：不同口型画面之间切换突兀、不自然等情况。

为解决上述至少一个技术问题，本发明实施例提供了另一种交互方法。图3为本发明实施例提供的另一种交互方法的流程图，如图3所示，可以包括如下步骤：

301、获取第二交互信息对应的音频、音素序列和音素序列中每个音素的持续时间。

302、根据预设的音素与口型之间的对应关系，确定音素序列对应的口型序列。

303、根据音素序列中每个音素的持续时间，确定口型序列中每个口型对应的口型画面展示时间。

304、针对口型序列中任意两个相邻的第一口型和第二口型，根据第一口型和所述第二口型分别对应的口型状态参数，确定从第一口型过渡到第二口型的多个第一中间口型。

305、根据第二口型对应的口型画面展示时间，确定第二口型和多个第一中间口型分别对应的目标口型画面展示时间。

306、在输出所述音频时，根据目标口型画面展示时间，控制数字化的目标古人展示与口型序列和多个第一中间口型匹配的口型画面。

本方案中，通过在口型序列中相邻两个口型之间增加多个第一中间口型，从而在控制数字化的目标古人展示口型画面时，相邻的两个口型对应的口型画面之间的差距较小，避免了从一个口型画面突兀的跳转到另一个口型画面的情况，口型画面之间的过渡更加自然，更贴近于真人表达。

本实施例中，在获取到第二交互信息之后，并不直接将第二交互信息输出给用户，而是通过文本语音转换等技术获取第二交互信息对应的音频，并提取音频中的音素序列以及音素序列中每个音素的持续时间，音素序列中的音素与音频对应的按照时间顺序从早到晚进行排列。可选地，音素序列和每个音素的持续时间可以用数组的形式表示。可选地，每个音素的持续时间可以用该音素的持续时间在音素序列对应的整体持续时间中的时间占比表示。

其中，音素是根据语音的自然属性划分出来的最小语音单位，音素序列和音素序列中每个音素的持续时间用于控制展示数字化的目标古人的口型画面。展开来说，音素序列用于确定数字化的目标古人展示的口型画面，音素序列中每个音素的持续时间用于确定口型画面对应的展示时间。

具体实施过程中，可以预先建立“音素-音素类别-口型”之间的映射关系，根据该映射关系中音素和口型的对应关系，可以确定音素序列对应的口型序列。口型序列中包含有多个与音素一一对应的口型，每个口型对应有其口型状态参数，比如：唇部关键点的位置坐标等等，口型对应的状态参数可以用于生成与口型对应的口型画面。

由于不同的音素对应的口型可能相近，因此可以将口型相近的音素可以归为同一类别，同一类别的音素对应于同一口型。可选地，可以根据实际需求，建立不同的“音素-音素类别-口型”映射关系。比如：当对数字化的目标古人展示的口型画面的生动性要求较高时，可以将音素划分为较多的音素类别，进而配置较多的口型，从而在输出音频时，可以控制数字化的目标古人展示较多的不同口型画面，使得画面更加生动形象；而当对数字化的目标古人展示的口型画面的生动性要求较低时，可以将音素划分为较少的音素类别，进而配置较少的口型，在输出音频时，数字化的目标古人能够表现出口型画面随音频播放存在画面切换即可。

为便于理解，举例来说，假设预设的“音素-音素类别-口型”映射关系为：音素1-类别1-口型1、音素2-类别1-口型1、音素3-类别2-口型2和音素4-类别3-口型3。若第二交互信息对应的音素数据中的音素序列为：{音素1，音素2，音素3，音素4}，则根据预设的“音素-音素类别-口型”映射关系中音素与口型之间的对应关系，确定音素序列对应的口型序列为{口型1，口型1，口型2，口型3}。

本实施例中，为了使口型画面之间的过渡更加自然，在确定音素序列对应的口型序列之后，进一步地，针对口型序列中任意两个相邻的第一口型和第二口型，根据第一口型和第二口型分别对应的口型状态参数，确定从第一口型过渡到第二口型的多个第一中间口型。

具体实施过程中，可选地，可以根据第一口型和第二口型分别对应的口型状态参数，确定从第一口型到第二口型的口型状态参数变化曲线，之后，从该口型状态参数变化曲线上取样得到多组口型状态参数，其中，取样得到的每组口型状态参数对应一个口型，也即第一中间口型。

为便于理解，举例来说，以第一口型为口型序列{口型1，口型1，口型2，口型3}中的口型2，第二口型为口型3为例。假设口型2的口型状态参数中上嘴唇的中心点坐标为（x1，y1），口型3的口型状态参数中上嘴唇的中心点坐标为（x2，y2），根据（x1，y1）和（x2，y2）确定过（x1，y1）和（x2，y2）的一条直线L。之后，在直线L上的进行取样得到2个坐标点（x3，y3）和（x4，y4），其中，x3和x4的值在x1与x2之间，y3和y4的值在y1与y2之间。（x3，y3）即为第一中间口型1的口型状态参数中上嘴唇的中心点坐标，（x4，y4）即为第一中间口型2的口型状态参数中上嘴唇的中心点坐标。类似地，可以采样得到第一中间口型1和第一中间口型2的口型状态参数中的其他数值。从而得到第一中间口型1和第一中间口型2完整的口型状态参数，确定第一中间口型1和第一中间口型2的口型状态参数对应的口型画面。

针对音素序列中每个因素的持续时间，由于口型序列与音素序列对应，因此，可以根据音素序列中每个音素的持续时间，确定口型序列中每个口型对应的口型画面展示时间。具体地，口型序列中每个口型对应的口型画面展示时间等于其对应音素的持续时间。

由于本方案中，针对口型序列中任意两个相邻的第一口型和第二口型，还确定了从第一口型过渡到第二口型的多个第一中间口型。因此，进一步地，还需要确定多个第一中间口型分别对应的口型画面展示时间。可选地，可以根据第二口型对应的口型画面展示时间，确定第二口型和多个第一中间口型分别对应的目标口型画面展示时间。比如说：第一口型（假设为口型2）与第二口型（假设为口型3）之间存在第一中间口型1和第二中间口型2，第二口型对应的口型画面展示时间为t1至t2，其中，t1与t2之间间隔60ms，可选地，可以将第二口型对应的口型画面展示时间平均划分给两个第一中间口型和第二口型，在此情形下，第一中间口型1对应的目标口型画面展示时间为t1至t1+20ms，第一中间口型2对应的目标口型画面展示时间为t1+21ms至t1+40ms，第二口型对应的目标口型画面展示时间为t1+41ms至t2。

最后，在输出音频时，根据目标口型画面展示时间，控制数字化的目标古人在口型序列和多个第一中间口型分别对应的目标口型画面展示时间内，展示与口型相匹配的口型画面。

为便于理解，结合图4进行举例说明，图4为本发明实施例提供的一种数字化的目标古人口型画面切换的示意图，如图4所示，在口型2对应的口型画面与口型3对应的口型画面之间，增加了第一中间口型1对应的口型画面和第一中间口型2对应的口型画面，一中间口型1对应的目标口型展示时间为t1至t1+20ms，第一中间口型2对应的目标口型展示时间为t1+21ms至t1+40ms，口型3对应的目标口型展示时间为t1+41ms至t2。从而在控制数字化的目标古人展示口型画面时，在t1至t1+20ms展示第一中间口型1，在t1+21ms至t1+40ms展示第一中间口型2，在t1+41ms至t2展示口型3。由于口型2与第一中间口型1、第一中间口型1与第一中间口型2、第一中间口型2与口型3之间的口型画面差距均小于口型2与口型3之间的口型画面差距，避免了从一个口型画面突兀的跳转到另一个口型画面的情况，口型画面之间的过渡更加自然。

实际应用中，数字化的目标古人对应的会有初始状态，比如：在未进行人机交互时，数字化的目标古人展示的状态。在初始状态下，数字化的目标古人的口型画面为预设口型画面，比如：预设口型画面为闭口口型对应的口型画面。可以理解的是，在开始进行人机交互时，数字化的目标古人需要从预设口型画面过渡到口型序列中的首个口型对应的口型画面；在结束人机交互时，数字化的目标古人需要从口型序列中最后一个口型对应的口型画面过渡到预设口型画面。

为实现在开始和结束人机交互时，口型画面的平滑过渡，可选地，针对口型序列中仅存在一个相邻口型的目标口型，即口型序列中首个口型和/或最后一个口型，根据预设口型对应的口型状态参数和目标口型对应的口型状态参数，确定从预设口型过渡到目标口型的多个第二中间口型和/或从目标口型过渡到预设口型的多个第二中间口型；其中，预设口型与数字化的目标古人在未进行交互时展示的预设口型画面匹配。

展开来说，假设预设口型是闭口口型，若目标口型是口型序列中的首个口型，则根据闭口口型对应的口型状态参数和口型序列中的首个口型对应的口型状态参数，确定从闭口口型过渡到口型序列中的首个口型的多个第二中间口型；若目标口型是口型序列中的最后一个口型，则根据闭口口型对应的口型状态参数和口型序列中的最后一个口型对应的口型状态参数，确定从口型序列中的最后一个口型过渡到闭口口型的多个第二中间口型。

相应地，针对口型序列中的首个口型，也可以根据首个口型对应的口型画面展示时间，确定首个口型和多个第二中间口型分别对应的目标口型画面展示时间。从而，在输出音频时，根据目标口型画面展示时间，控制数字化的目标古人展示与口型序列、多个第一中间口型、多个第二中间口型匹配的口型画面。

本方案中，一方面，通过确定口型序列中相邻两个口型之间的多个第一中间口型，实现了在口型序列中相邻两个口型对应的口型画面之间增加多个中间口型画面，从而在控制数字化的目标古人展示口型画面时，相邻的两个口型画面之间的差距较小，避免了从一个口型画面突兀的跳转到另一个口型画面的情况，口型画面之间的过渡更加自然，更贴近于真人表达。另一方面，通过根据音素序列中每个音素的持续时间确定口型序列中每个口型对应的口型画面展示时间，并进一步地根据口型序列中各口型对应的口型画面展示时间，确定口型序列中的口型以及多个中间口型分别对应的目标口型画面展示时间，实现了数字化的目标古人在随着音频的输出展示口型画面时，口型画面能够更好的与音频对应。

具体实施过程中，由于各种算法误差，从音频中提取的音素序列对应的总持续时长往往小于音频时长，这就导致在输出音频时，数字化的目标古人展示的口型画面与音频不匹配，比如：口型画面滞后于当前输出音频内容，或者口型画面超前与当前输出音频内容。

在一可选实施例中，可通过如下方式解决输出音频与口型画面音画不同步的问题：

首先，根据第二交互信息对应的音频，确定处于静音状态的第一目标时间；然后，从第二口型和多个第一中间口型中筛选出与静音状态对应的目标预设口型，并根据目标预设口型对应的目标口型画面展示时间，确定第二目标时间。其中，第二目标时间连续且由目标预设口型对应的目标口型画面展示时间构成，第一目标时间和第二目标时间各自的时长均大于或等于预设时间阈值。最后，根据第一目标时间和第二目标时间，调整音素序列中每个音素的持续时间，以重新确定口型序列中的口型、第一中间口型和/或第二中间口型的目标口型画面展示时间。

本实施例实际上是通过判断目标状态在音频中对应的时间与目标状态在口型画面中对应的目标口型画面展示时间是否一致，来判断画音是否同步。由于音频中的时间并不能进行修改，因此，当不一致时，通过调整口型画面对应的目标口型画面展示时间，使其最终一致，实现画音同步。其中，目标状态在本实施例中为静音状态。

由于在讲话过程中会产生不同时间间隔的停顿，为了避免对静音状态的误判，本实施例中，将音频中音量为零且持续时间大于或等于设定时间阈值的状态称为静音状态，将音频中静音状态对应的时间称为第一目标时间，可以理解的是，第一目标时间可以不止一个。

本实施例中静音状态对应的目标预设口型为闭口口型。可以理解的是，口型在变换的过程中实际上也可能会出现闭口口型，但是此时的闭口口型并不代表静音状态。本实施例中，为确定静音状态在口型画面中对应的第二目标时间，首先，从第二口型和多个第一中间口型中筛选出闭口口型，然后，从闭口口型对应的目标口型画面展示时间中确定出时长大于或等于设定时间阈值的第二目标时间。

需要说明的是，当存在多个相邻的闭口口型时，将多个闭口口型对应的目标口型画面展示时间进行累加，并将累加后的结果与设定时间阈值进行比较，若累加后的结果大于或等于设定时间阈值，则确定第二目标时间为累加后的结果对应的时间。

可选地，目标状态也可以是除静音状态外的其他状态，与目标状态对应的目标预设口型也可以是除闭口口型外的其他口型。

可选地，根据第一目标时间和第二目标时间，调整音素序列中每个音素的持续时间，以重新确定目标口型画面展示时间，包括：根据第一目标时间和第二目标时间之间的比值，确定用于调整音素序列中每个音素的持续时间的调整参数；将音素序列中每个音素的持续时间与调整参数的乘积作为调整后的音素序列中每个音素的持续时间，进而可以根据调整后的音素序列中每个音素的持续时间，重新确定口型序列中的口型、第一中间口型和/或第二中间口型的目标口型画面展示时间。其中，在计算第一目标时间与第二目标时间之间的比值时，可以取第一目标时间和第二目标时间中的目标时间点或目标时间片进行比值计算，比如：目标时间点位第一目标时间和第二目标时间中的起始时间点。可以理解的是，当第一目标时间和第二目标时间之间的比值为1时，表明第一目标时间与第二目标时间对应，无需调整音素序列中每个音素的持续时间。

可选地，第一目标时间和第二目标时间均为多个。在此情形下，根据第一目标时间和第二目标时间之间的比值，确定用于调整音素序列中每个音素的持续时间的调整参数，包括：首先，按照时间先后顺序，确定多个第一目标时间与多个第二目标时间的多个比值；然后，根据多个比值，确定用于调整音素序列中每个音素的持续时间的调整参数。

举例来说，假设按照时间顺序，第一目标时间包括：T11、T12和T13，第二目标时间包括：T21、T22和T23，则多个第一目标时间与多个第二目标时间的多个比值为：δ1=T11/T21、δ2=T12/T22、δ3=T13/T23。可选地，可以通过对δ1、δ2和δ3加权求平均确定用于调整音素序列中每个音素的持续时间的调整参数。

实际应用中，第一目标时间与第二目标时间的比值并不都是合理的，有些数据存在明显误差，为排除存在误差的数据对调整参数影响，可以从多个第一目标时间与多个第二目标时间的多个比值中确定出在预设数值范围内的多个目标比值，然后根据多个目标比值，确定用于调整音素序列中每个音素的持续时间的调整参数。比如：预设数值范围为1至1.8，假设δ1=2、δ2=1.1、δ3=1.2，则确定目标比值为δ2和δ3，之后，通过对δ2和δ3加权求平均确定用于调整音素序列中每个音素的持续时间的调整参数。

可以理解的是，一次调整可能并不能使目标状态在音频中对应的时间与目标状态在口型画面中对应的目标口型画面展示时间一致。因此，可以循环执行上述过程，直至上述第一目标时间与第二目标时间一致即比值为1，或第一目标时间与第二目标时间之间的误差在预设范围内。

本方案中，通过调整口型画面对应的目标口型画面展示时间，使得静音状态在音频中对应的第一目标时间与静音状态对应的闭口口型的目标口型画面展示时间（即第二目标时间）一致，从而实现音频的播放时间与口型画面的展示时间一致，实现画音同步。

以下将详细描述本发明的一个或多个实施例的交互装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图5为本发明实施例提供的一种交互装置的结构示意图，如图5所示，该装置包括：获取模块11、输出模块12、处理模块13。

获取模块11，用于获取用户与数字化的目标古人进行交互时发送的第一交互信息。

输出模块12，用于将所述第一交互信息输入目标语言模型，以生成用于响应所述第一交互信息的第二交互信息，所述第二交互信息为具有所述目标古人语言特点的文言文。

处理模块13，用于将获取到的与所述目标古人存在关联的第一语料信息输入第一语言模型，以从所述第一语料信息中筛选出内容正确的语料信息作为第二语料信息；将所述第二语料信息输入第二语言模型，以生成与所述第二语料信息内容匹配的问答对，所述问答对中的问题为文言文或白话文，所述问答对中的答案为文言文；将所述问答对输入待训练语言模型以训练得到目标语言模型；其中，所述待训练语言模型包括预训练好的第三语言模型以及针对所述第三语言模型中的权重矩阵构建的目标权重矩阵；在训练时，所述第三语言模型的模型参数保持不变，调整所述目标权重矩阵的权重参数。

可选地，所述输出模块12，具体用于从所述目标语言模型对应的训练样本集中确定与所述第一交互信息匹配的目标数据；根据所述目标数据，生成用于响应所述第一交互信息的第二交互信息。

可选地，所述训练样本集包括：第一训练样本集和第二训练样本集，所述第一训练样本集用于训练得到所述目标语言模型，所述第二训练样本集用于训练得到所述第三语言模型。所述输出模块12，还具体用于若所述第一训练样本集中存在与所述第一交互信息相似度大于第一设定阈值的第一样本数据，则根据所述第一样本数据确定目标数据；若不存在所述第一样本数据，则根据所述第二训练样本集中与所述第一交互信息相似度大于第二设定阈值的第二样本数据，确定目标数据。

可选地，所述第一训练样本集中包括所述问答对，所述输出模块12，还具体用于若所述第一训练样本集包含的所述问答对中存在与所述第一交互信息相似度大于第一设定阈值的目标问题，则根据所述目标问题，确定所述目标问题对应问答对中的答案为所述目标数据。

可选地，所述获取模块11，还用于获取所述第二交互信息对应的音频、音素序列和所述音素序列中每个音素的持续时间。

相应地，所述输出模块12，还用于根据预设的音素与口型之间的对应关系，确定所述音素序列对应的口型序列；根据所述音素序列中每个音素的持续时间，确定所述口型序列中每个口型对应的口型画面展示时间；针对口型序列中任意两个相邻的第一口型和第二口型，根据所述第一口型和所述第二口型分别对应的口型状态参数，确定从所述第一口型过渡到所述第二口型的多个第一中间口型；根据所述第二口型对应的口型画面展示时间，确定所述第二口型和所述多个第一中间口型分别对应的目标口型画面展示时间；在输出所述音频时，根据所述目标口型画面展示时间，控制所述数字化的目标古人展示与所述口型序列和所述多个第一中间口型匹配的口型画面。

可选地，所述输出模块12，还具体应于根据所述音频，确定处于静音状态的第一目标时间；从所述第二口型和所述多个第一中间口型中筛选出与所述静音状态对应的目标预设口型；根据所述目标预设口型对应的所述目标口型画面展示时间，确定第二目标时间，所述第二目标时间连续且由所述目标预设口型对应的所述目标口型画面展示时间构成；所述第一目标时间和所述第二目标时间各自的时长均大于或等于预设时间阈值；根据所述第一目标时间和所述第二目标时间，调整所述音素序列中每个音素的持续时间，以重新确定所述目标口型画面展示时间。

可选地，所述处理模块13，还用于将所述问答对输入第四语言模型，以获取与所述问答对内容匹配的目标问答对，所述目标问答对的数量大于所述问答对的数量；将所述目标问答对输入待训练语言模型以训练得到目标语言模型。

图5所示装置可以执行前述实施例中介绍的步骤，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图5所示交互装置的结构可实现为一电子设备，如图6所示，该电子设备可以包括：存储器21、处理器22、通信接口23。其中，存储器21上存储有可执行代码，当所述可执行代码被处理器22执行时，使处理器22至少可以实现如前述实施例中提供的交互方法。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述实施例中提供的交互方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种交互方法，其特征在于，包括：

其中，所述目标语言模型通过如下方式训练得到：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一交互信息输入目标语言模型，以生成用于响应所述第一交互信息的第二交互信息，包括：

从所述目标语言模型对应的训练样本集中确定与所述第一交互信息匹配的目标数据；

根据所述目标数据，生成用于响应所述第一交互信息的第二交互信息。

3.根据权利要求2所述的方法，其特征在于，所述训练样本集包括：第一训练样本集和第二训练样本集，所述第一训练样本集用于训练得到所述目标语言模型，所述第二训练样本集用于训练得到所述第三语言模型；所述从所述目标语言模型对应的训练样本集中确定与所述第一交互信息匹配的目标数据，包括：

若所述第一训练样本集中存在与所述第一交互信息相似度大于第一设定阈值的第一样本数据，则根据所述第一样本数据确定目标数据；

若不存在所述第一样本数据，则根据所述第二训练样本集中与所述第一交互信息相似度大于第二设定阈值的第二样本数据，确定目标数据。

4.根据权利要求3所述的方法，其特征在于，所述第一训练样本集中包括所述问答对，所述若所述第一训练样本集中存在与所述第一交互信息相似度大于第一设定阈值的第一样本数据，则根据所述第一样本数据确定目标数据，包括：

若所述第一训练样本集包含的所述问答对中存在与所述第一交互信息相似度大于第一设定阈值的目标问题，则根据所述目标问题，确定所述目标问题对应问答对中的答案为所述目标数据。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述第二交互信息对应的音频、音素序列和所述音素序列中每个音素的持续时间；

根据预设的音素与口型之间的对应关系，确定所述音素序列对应的口型序列；

根据所述音素序列中每个音素的持续时间，确定所述口型序列中每个口型对应的口型画面展示时间；

针对口型序列中任意两个相邻的第一口型和第二口型，根据所述第一口型和所述第二口型分别对应的口型状态参数，确定从所述第一口型过渡到所述第二口型的多个第一中间口型；

根据所述第二口型对应的口型画面展示时间，确定所述第二口型和所述多个第一中间口型分别对应的目标口型画面展示时间；

在输出所述音频时，根据所述目标口型画面展示时间，控制所述数字化的目标古人展示与所述口型序列和所述多个第一中间口型匹配的口型画面。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述音频，确定处于静音状态的第一目标时间；

从所述第二口型和所述多个第一中间口型中筛选出与所述静音状态对应的目标预设口型；

根据所述目标预设口型对应的所述目标口型画面展示时间，确定第二目标时间，所述第二目标时间连续且由所述目标预设口型对应的所述目标口型画面展示时间构成；所述第一目标时间和所述第二目标时间各自的时长均大于或等于预设时间阈值；

根据所述第一目标时间和所述第二目标时间，调整所述音素序列中每个音素的持续时间，以重新确定所述目标口型画面展示时间。

7.根据权利要求1所述的方法，其特征在于，所述将所述问答对输入待训练语言模型以训练得到目标语言模型，包括：

将所述问答对输入第四语言模型，以获取与所述问答对内容匹配的目标问答对，所述目标问答对的数量大于所述问答对的数量；

将所述目标问答对输入待训练语言模型以训练得到目标语言模型。

8.一种交互装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至7中任一项所述的交互方法。

10.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至7中任一项所述的交互方法。