CN110598739A

CN110598739A - 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质

Info

Publication number: CN110598739A
Application number: CN201910727056.XA
Authority: CN
Inventors: 方建生
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-12-20
Anticipated expiration: 2039-08-07
Also published as: CN110598739B

Abstract

本发明公开了图文转换方法、设备、智能交互方法、设备、系统、客户端、服务器、机器及介质。该图文转换方法包括：构建样本数据集；使用样本数据集来训练深度学习模型和语言表征模型；在用户输入为图像时，通过深度学习模型提取输入图像的视觉特征，并计算视觉特征相似度，选取相似度最高的图像对应的文本作为该输入图像的对应输出；以及在用户输入为文本时，通过语言表征模型提取语义特征，并计算语义特征相似度，选取相似度最高的文本对应的图像作为该输入文本的对应输出。本发明通过构建专用数据集并采用各种转换模型，向用户提供更丰富、更高效的交互功能，实现真正的深度交互。

Description

图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质

技术领域

本发明涉及智能交互技术，尤其涉及图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质。

背景技术

随着计算机网络技术的快速发展，诸如智能手机、智能平板、各种家用和办公用计算机、交互智能平板、交互智能白板等的各种智能交互设备或相应的智能交互系统广泛应用于教育教学、企业会议、商业展示等各种领域，给人们的学习、工作和生活带来了极大的便利。

但是，目前的智能交互设备或系统尚缺乏交互功能或者交互功能过于简单和单一，无法实现与用户的真正深度交互。比如，针对用户的智能学习平板或系统目前主要向用户主动提供学习内容，却无法获知用户对学习内容的实际吸收和掌握程度，更无法基于此，来为用户提供有针对性的、个性化的学习路径。

因此，亟需提供一种交互功能更丰富、更高效的能够实现真正的深度交互的智能交互解决方案。

发明内容

为了解决以上问题之一，本发明提供了一种图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质，以向用户提供更丰富、更高效的交互功能，实现真正的深度交互。

根据本发明的一个实施例，提供一种图文自动转换方法，用于在图像和文本之间进行双向自动转换，该方法包括：构建样本数据集，该样本数据集中的每条样本数据均包含图像以及用于描述该图像的文本；使用所述样本数据集中的图像来训练用于获得图像的视觉特征的深度学习模型，以及使用所述样本数据集中的文本来训练用于获得文本的语义特征的语言表征模型；以及响应于用户的输入：在用户的输入为图像的情况下，通过经过训练的深度学习模型来提取输入图像的视觉特征，并计算该视觉特征与样本数据集中的各样本数据内含有的图像的视觉特征之间的相似度，选取视觉特征相似度最高的图像所在的样本数据内含有的文本作为该输入图像的对应输出；以及在用户的输入为文本的情况下，通过经过训练的语言表征模型来提取输入文本的语义特征，并计算该语义特征与样本数据集中的各样本数据内含有的文本的语义特征之间的相似度，选取语义特征相似度最高的文本所在的样本数据内含有的图像作为该输入文本的对应输出。

可选地，所述深度学习模型包括卷积神经网络模型，所述语言表征模型包括基于变换器的双向编码器表征。

可选地，所述样本数据集中的样本数据包括用于标记该样本数据内的作为呈现内容的图像与文本将呈现的先后顺序的关系字段、用于标记每个样本数据的特征或属性信息的标签字段。

根据本发明的一个实施例，提供一种智能交互方法，用于在图像、文本与音频之间进行自动转换以便实现与用户的多模态智能交互，该方法包括：响应于用户的输入：在用户的输入为文本的情况下，将输入的文本转换成语音，呈现给用户；在用户的输入为图像的情况下，使用上述的图文自动转换方法将所述输入转换为文本，呈现给用户，或者，将所述输入转换成的文本转换成语音，再呈现给用户；在用户的输入为语音的情况下，将输入的语音转换成文本，直接呈现给用户，或者，使用上述的的图文自动转换方法，将所述语音转换成的文本转换为图像，呈现给用户。

可选地，该智能交互方法还包括：记录与用户的交互过程，记入用户个人档案；以及基于与用户的交互情况，向用户作出内容推荐和/或用户使用报告。

根据本发明的一个实施例，提供一种图文自动转换设备，用于在图像和文本之间进行双向自动转换，该设备包括：数据集构建装置，被配置用于构建样本数据集，该样本数据集中的每条样本数据均包含图像以及用于描述该图像的文本；模型训练装置，被配置用于使用所述样本数据集中的图像来训练用于获得图像的视觉特征的深度学习模型，以及使用所述样本数据集中的文本来训练用于获得文本的语义特征的语言表征模型；以及图文转换装置，被配置用于，响应于用户的输入：在用户的输入为图像的情况下，通过经过训练的深度学习模型来提取输入图像的视觉特征，并计算该视觉特征与样本数据集中的各样本数据内含有的图像的视觉特征之间的相似度，选取视觉特征相似度最高的图像所在的样本数据内含有的文本作为该输入图像的对应输出；以及在用户的输入为文本的情况下，通过经过训练的语言表征模型来提取输入文本的语义特征，并计算该语义特征与样本数据集中的各样本数据内含有的文本的语义特征之间的相似度，选取语义特征相似度最高的文本所在的样本数据内含有的图像作为该输入文本的对应输出。

根据本发明的一个实施例，提供一种智能交互设备，能够与用户进行图像、文本与音频形式的多模态智能交互，该设备包括：交互接口，通过该交互接口，用户提供图像、文本或音频形式的输入；转换装置，包括:上述的图文自动转换设备；文本语音转换设备，被配置用于在文本和语音之间进行双向自动转换；其中，响应于用户在交互接口的输入，多模态转换装置进行如下操作：在用户的输入为文本的情况下，使用文本语音转换设备，将输入的文本转换成语音，呈现给用户；在用户的输入为图像的情况下，使用图文自动转换设备，将所述输入转换为文本，呈现给用户，或者，使用文本语音转换设备，将所述输入转换成的文本转换成语音，呈现给用户；在用户的输入为语音的情况下，使用文本语音转换设备，将输入的语音转换成文本，直接呈现给用户，或者，使用图文自动转换设备，将所述语音转换成的文本转换为图像，呈现给用户。

可选地，上述智能交互设备还包括：记录装置，被配置用于记录与用户的交互过程，并记入用户个人档案；以及内容推送装置，被配置用于基于与用户的交互情况，向用户作出内容推荐和/或发送用户使用报告。

根据本发明的一个实施例，提供一种智能交互系统，能够与用户进行图像、文本与音频形式的多模态智能交互，该智能交互系统包括智能交互客户端和智能交互服务器，其中，所述智能交互客户端包括：交互接口，通过该交互接口，用户提供图像、文本或音频形式的输入；发送装置，被配置用于将用户的输入发送给交互服务器；接收装置，被配置用于接收来自交互服务器的输出，并将该输出发送给呈现装置；以及呈现装置，被配置用于将所述输出呈现给用户；所述智能交互服务器包括:接收装置，被配置用于接收来自智能交互客户端的所述用户的输入；上述的图文自动转换设备；文本语音转换设备，被配置用于在文本和语音之间进行双向自动转换；以及发送装置，被配置用于向智能交互客户端发送所述用户的输入所对应的输出，其中，针对接收到的所述用户的输入，在智能交互服务器中执行如下操作：在用户的输入为文本的情况下，文本语音转换设备将输入的文本转换成语音，作为对应的输出发送至智能交互客户端；在用户的输入为图像的情况下，图文自动转换设备将所述输入转换为文本，作为对应的输出发送至智能交互客户端，或者，文本语音转换设备将所述输入转换成的文本转换成语音，作为对应的输出发送至智能交互客户端；在用户的输入为语音的情况下，文本语音转换设备将输入的语音转换成文本，发送至智能交互客户端，或者，图文自动转换设备将所述语音转换成的文本转换为图像，作为对应的输出发送至智能交互客户端。

根据本发明的一个实施例，提供一种智能交互客户端，能够与用户进行图像、文本与音频形式的多模态智能交互，该智能交互客户端包括：交互接口，通过该交互接口，用户提供图像、文本或音频形式的输入；发送装置，被配置用于将用户的输入发送给交互服务器；接收装置，被配置用于接收来自交互服务器的输出，并将该输出发送给呈现装置；以及呈现装置，被配置用于将所述输出呈现给用户；其中，所述交互服务器针对接收到的所述用户的输入，执行如下操作，以得到对应于所述输入的输出：在用户的输入为文本的情况下，将输入的文本转换成语音，作为对应的输出发送至智能交互客户端；在用户的输入为图像的情况下，将所述输入转换为文本，作为对应的输出发送至智能交互客户端，或者，将所述输入转换成的文本转换成语音，作为对应的输出发送至智能交互客户端；在用户的输入为语音的情况下，将输入的语音转换成文本，发送至智能交互客户端，或者，将所述语音转换成的文本转换为图像，作为对应的输出发送至智能交互客户端。

根据本发明的一个实施例，提供一种智能交互服务器，与智能交互客户端通信，以经由该智能交互客户端实现与用户进行图像、文本与音频形式的多模态智能交互，其特征在于，该智能交互服务器包括:接收装置，被配置用于接收来自智能交互客户端的用户输入；作为上面描述的图文自动转换设备之一的图文转换设备；文本语音转换设备，被配置用于在文本和语音之间进行双向自动转换；以及发送装置，被配置用于向智能交互客户端发送所述用户输入所对应的输出，其中，针对接收到的所述用户输入，在智能交互服务器中执行如下操作：在用户输入为文本的情况下，文本语音转换设备将输入文本转换成语音，作为对应的输出发送至智能交互客户端；在用户输入为图像的情况下，图文自动转换设备将输入图像转换为文本，作为对应的输出发送至智能交互客户端，或者，文本语音转换设备将输入图像转换成的文本转换成语音，作为对应的输出发送至智能交互客户端；在用户输入为语音的情况下，文本语音转换设备将输入的语音转换成文本，发送至智能交互客户端，或者，图文自动转换设备将输入的语音转换成的文本转换为图像，作为对应的输出发送至智能交互客户端。

根据本发明的一个实施例，提供一种智能交互机器，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上面描述的方法之一。

根据本发明的又一个实施例，提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，使所述处理器执行上面描述的方法之一。

本发明通过构建专用数据集并采用各种转换模型，向用户提供更丰富、更高效的交互功能，实现真正的深度交互。

具体地，本发明通过向用户提供多模态交互能力，包括图、文、音视频之间的自动转换能力，实现与用户之间的真正深度交互。例如，对于作为本发明的一种应用场景的幼儿学习系统来说，通过本发明的智能交互方案，能够实现幼儿的自主学习，即便是一个还未识字的幼儿，也可以主要通过图片和语音视频而非文本来进行交互，而且无需家长陪伴，在此基础上，还能够提供针对幼儿的个性化的学习服务，例如记录幼儿学习和认知的过程，并且能够结合其学习和认知过程，基于所构建的幼儿学习知识图谱，有针对性地为其推荐学习内容。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的附图标记通常代表相同部件。

图1示意性地给出了多模态之间的转换关系。

图2给出了根据本发明的一个示例性实施例的图文自动转换方法的流程图。

图3给出了根据本发明的一个示例性实施例的与用户的智能交互过程的示意图。

图4给出了一个具体的多模态智能交互示例。

图5给出了根据本发明的一个示例性实施例的图文自动转换设备的框图。

图6给出了给出了根据本发明的一个示例性实施例的智能交互设备的框图。

图7给出了根据本发明的一个示例性实施例的可远程提供智能交互服务的智能交互系统的框图。

图8给出了根据本发明的一个示例性实施例的智能交互客户端的框图。

图9给出了根据本发明的一个示例性实施例的可远程提供智能交互服务的智能交互服务器的框图。

图10给出了根据本发明的一个示例性实施例的智能交互机器(包括智能交互终端，例如智能交互平板等)的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。这里需要说明的是，本申请中的数字、序号以及附图标记仅是为了方便描述而出现的，对于本发明的步骤、顺序等等均不构成任何限制，除非在说明书中明确指出了步骤的执行有特定的先后顺序。

如前所述，目前的智能交互设备或系统尚缺乏交互功能或者交互功能过于简单和单一，无法实现与用户的真正深度交互。比如，针对用户的智能学习平板或系统目前主要向用户主动提供学习内容，却无法获知用户对学习内容的实际吸收和掌握程度，更无法基于此，来为用户提供有针对性的、个性化的学习路径。

基于此，本发明提供一种交互功能更丰富、更高效的能够实现真正的深度交互的智能交互解决方案。本发明通过向用户提供多模态交互能力，包括图像、文字、音视频之间的自动转换能力，实现与用户之间的真正深度交互。

多模态交互的前提是要实现图像、文字、音频(包括视频)这三种模态之间的自动转换。由于文字和音频(包括视频，可以理解为视频中的音频)之间的转换技术相对成熟，所以多模态交互的难点是如何实现图像和文字(简称“图文”)之间的双向自动转换。在实现文字和音频之间的双向自动转换、以及图像和文字之间的双向自动转换之后，便可以实现图像、文字、音频三者之间的自动转换，如图1所示，其中，图像和音频之间的自动转换可以通过图像与文字、文字与音频之间的转换来间接完成。

为了在诸如用于提供用户自主学习平台(例如幼儿自主学习平台)之类的智能交互系统中实现图像和文字之间有效的双向自动转换，本发明提出了一种利用深度学习模型实现图文双向自动转换、由此实现多模态交互的智能交互方法。

具体地，本发明构建用户专用数据集(例如幼教数据集)作为样本数据集，然后利用该样本数据集来训练深度学习模型(例如，卷积神经网络模型)，通过训练好的深度学习模型，提供图文双向自动转换能力，由此实现多模态(图文音三者)的自动转换。

下面将参照图2来描述根据本发明的一个示例性实施例的智能交互方法。

如图2所示，首先，在步骤S110，构建作为样本数据集的用户专用数据集(例如幼教数据集)。

下面将以幼教数据集为例来描述样本数据集的构建。

作为示例，在本发明的作为样本数据集的幼教数据集中，每条样本数据至少可以包括以下字段信息：

1)样本数据ID，可以用ID字段表示；

2)一个图像，可以用IMG字段表示；

3)对该图像的描述，后续将称为“文本”，可以用TEXT字段表示；以及

4)标签，可以用TAG字段表示，对于一条数据记录中有多个标签的情况，标签字段TAG可以分为TAG1、TAG2、...、TAGn等多个子字段。

其中，样本数据ID是该样本数据在样本数据集中的唯一的标识，可以用数字、字母、其它符号或者它们的任意组合来表示。

每条样本数据中包含的图像属于幼儿学习内容，或者可以说，包含幼儿学习内容。

标签是可以用于标记每个样本数据的特征或属性的信息。比如在本例中，标签可以用来标记幼儿学习的知识点。这里，标签里的特征或属性的信息可以包含不止一个。

请注意，这里的知识点与学习内容有区别。例如，一个图像上有红、黄、绿等颜色，则这个图像所对应的学习内容可以是认识红、黄、绿等这些具体的颜色(比如还可以是中英文方式的颜色学习)，而这个图像所对应的知识点可以归结为“颜色”或“颜色认知”等，用于表达该图像的内容的抽象特征或属性，以便通过这样的特征或属性表达，在样本数据集中的诸多样本数据之间建立所需的关系或联系，由此为自主学习或个性化学习之类的深度交互功能提供信息基础。比如，都带有标签“颜色”的样本数据均包含“颜色”这个知识点的学习内容。

众所周知，知识的系统学习有一个由知识点串联起来的学习路线，如上所述，知识点可以由“标签”信息来标记。那么，可选地，一个知识点上的学习内容的难易程度(比如，通常可以根据一个知识点的具体学习内容的难易程度来确定学习它们的先后顺序)可以通过上述的样本数据ID来标记。例如，如果样本数据ID是用数字表示的，那么可以通过样本数据ID(例如通过它们的大小关系)来表示学习内容的难易程度。具体地，例如，一个ID为123456的样本数据(比如用于认知六种颜色)，学习顺序可以在ID为123453(比如用于认知三种颜色)和123451(比如用于认知一种颜色)的样本数据之后。

通过像上面这样对于样本数据的学习难易程度的标记，可以在样本数据集中构建出一个相对完整的学习知识体系。另外，可选地，也可以使用另外的字段信息，例如可以使用专门的用于表示“难易程度”的字段(例如用“DEGREE”作为字段名)来标记学习内容的难易程度，此时也可以使用数字、字母或其它符号来表示学习内容的程度的不同。

通过本发明提供的多模态交互能力，可以实现用户的自主学习，并且还可以记录用户的每一次多模态交互和认知过程，由此判断出用户当前的学习情况，然后基于用户当前的学习情况，对每个用户进行有针对性的学习内容推荐和学习路线引导。

其中，上述的样本数据集可以通过多种方式来构建：1)可以从网络上爬取公开的幼教绘本；和/或2)通过幼教教师团队来标注等。

下面将举例来说明如何创建一条样本数据的记录。

例子1：

ID＝123456789

TAG1＝颜色，TAG2＝方位(可多个标签)

TEXT＝上边是蓝色，中间是橙色，下边是红色(一般由多个句子组成的一段话)

IMAGE＝(在此省略该图像)

例子2：

ID＝987654321

TAG1＝加法

TEXT＝4加2等于6

IMAGE＝(在此省略该图像)

然后，在步骤S120，利用样本数据集训练用于提取输入图像的视觉特征的深度学习模型和用于提取输入文本的语义特征的语言表征模型。

这里，可选地，本发明的用于提取输入图像的视觉特征的深度学习模型可以是卷积神经网络(Convolutional Neural Networks，CNN)模型，它是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，对于大型图像处理有出色表现。一个卷积神经网络模型通常由一个或多个卷积层与顶端的全连接层组成，同时也包括关联权重和池化层。与其他深度学习结构相比，卷积神经网络模型在图像和语音识别方面能够给出更好的结果。

另外，可以使用反向传播算法来训练卷积神经网络模型。相比较其它的深度、前馈神经网络模型，卷积神经网络模型需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。

基于此，优选地，可以使用样本数据集来训练卷积神经网络模型作为深度学习模型，并使用训练好的深度学习模型来提取输入图像的视觉特征(可简称为“图像特征(可标记为imagefeature)”)。为了节约篇幅并且不引起内容理解上的混乱，本文不对深入学习模型的训练做过多介绍。

另外，本发明采用语言表征模型来提取文本信息，即提取输入文本的语义特征。

在本发明中，可选地，可以使用BERT(Bidirectional Encoder Representationfrom Transformers，基于变换器的双向编码器表征)作为用于提取输入文本的语义特征的语言表征模型。其中，BERT中的“双向”的含义是表示在该语言表征模型在处理某一个词时，它能同时利用该词前面的内容和后面的内容，即利用该词的上下文信息，来进行预测。也就是说，BERT与传统的语言表征模型的不同之处在于，它不是在给定所有前面词的条件下预测最可能的当前词(会导致单向性预测问题)，而是随机遮掩一些词，并利用所有的未被遮掩的词来进行预测，由此能够提高语义特征提取的效率(即，能够高效提取特征)，克服传统的语言表征模型由于单向局限导致的普遍效率低下问题。

在本发明中，可选地，可以用上述的样本数据集(具体地，使用样本数据集中的文本信息)对例如BERT模型的语言表征模型进行训练，以进行参数修正，使得语言表征模型更适合应用场景(例如，幼儿学习场景等)。为了节约篇幅并且不引起内容理解上的混乱，本文不对语言表征模型的训练做过多介绍。

在步骤S130，利用深度学习模型来提取输入图像的视觉特征，和/或利用语言表征模型提取输入文本的语义特征。

经过上述的模型训练之后，在本步骤，可以开始多模态交互处理。

如果用户输入的是图像，则利用上述训练好的深度学习模型来提取该输入图像的视觉特征，得到输入图像的特征向量(图像特征imagefeature，m维)。

如果用户输入的是文本，则使用上述训练好的语言表征模型，提取输入文本的语义特征，得到输入文本的特征向量。

这里，输入文本的特征向量可简称为“文本特征”，标记为textfeature，假设为n维特征向量，其中n为大于1的整数。

在本发明中，使用的作为深度学习模型的卷积神经网络模型可以具有输入层、多个卷积层、中间的至少一个池化层(也称为“下采样层”)、以及顶端的全连接层(通常为1～2个全连接层)。

进一步优选地，为了提取图像的高阶特征，可以使用卷积神经网络模型的全连接层的输出作为输入图像的特征，比如可以使用卷积神经网络模型的最后一个全连接层的输出作为输入图像的特征。

这里，假设卷积神经网络模型的输出全连接层有1000个神经元，即输出特征为1000维(即，m＝1000)，则每一个输入图像可由该全连接层输出的1000维的特征向量来表征，其中，每个维度的值都可以是浮点数。这里，m值的大小不受特别限制，可以根据经验或者经过多次试验来确定。

这里，利用诸如BERT之类的语言表征模型提取输入文本的语义特征，如上所述，所提取的文本特征可以为n维，n为大于1的整数。可选地，文本特征的维度n可以例如为256、768等等，可以根据经验或者经过多次试验来确定，不过本发明对文本特征的维度的大小同样也不作任何限制。

在步骤S140，计算输入图像或文本与样本数据集中的图像或文本的特征之间的相似度，选取特征相似度最高的文本或图像作为输出。

具体地，如果输入是图像，则计算输入图像的视觉特征与样本数据集中的图像的视觉特征之间的相似度，选取具有最高相似度的图像所在的样本数据中的文本，作为该输入图像的输出文本。

另一方面，如果输入是文本，则计算输入文本的语义特征与样本数据集中的文本的语义特征之间的相似度，选取具有最高相似度的文本所在的样本数据中的图像，作为该输入文本的输出图像。

这里，特征相似度的计算方法可以是例如将两个特征的特征向量之间的距离(例如欧式距离(Euclidean Distance)、汉明距离(Hamming Distance)等等)或者它们的余弦相似度等作为这两个特征的相似度。

可选地，可以基于输入图像的标签来缩小样本数据集中的比较图像的范围。

例如，假设用户在给定标签下输入一张图像。这里的输入例如可以是，用户正在学习本发明的智能交互系统中的某个知识点时，在系统提供的画板上现画的图，或者用户通过系统提供的接口上传的图像，而不是像现有技术中那样，已经在系统内部事先存储了的图像。

那么在本发明中，首先需要通过训练后的深度学习模型来提取该输入图像的视觉特征，得到该输入图像的特征向量。

然后，基于输入图像的标签，仅将样本数据集中同样具有该标签的样本数据的图像与输入图像之间进行相似度计算，从而避免了将整个样本数据集中的图像的特征与输入图像的特征进行相似度计算，能够有效减少计算量，提高处理速度。

基于上述的特征相似度的计算，得到样本数据集中与输入图像的特征具有最高相似度的图像，然后将该图像对应的样本数据的文本作为该输入图像的文本，呈现给用户，从而向用户提供“即输即得”的真正的图文自动转换的智能交互。

再例如，假设用户在给定标签下输入文字。这里的输入例如可以是，用户正在学习本发明的智能交互系统中的某个知识点时，在系统提供的画板上现写的字(输入文本)，或者用户通过系统提供的接口上传的文本(输入文本)，而不是像现有技术中那样，已经在系统内部事先存储了的文本。

那么在本发明中，首先需要通过训练后的语言表征模型来提取该输入文本的语义特征，得到该输入文本的特征向量。

然后，基于输入文本的标签，仅将样本数据集中同样具有该标签的样本数据的文本与输入文本之间进行相似度计算，从而避免了将整个样本数据集中的文本的特征与输入文本的特征进行相似度计算，能够有效减少计算量，提高处理速度。

基于上述的特征相似度的计算，得到样本数据集中与输入文本的特征具有最高相似度的图像，然后将该文本对应的样本数据的图像作为该输入文本所对应的图像，呈现给用户，从而向用户提供“即输即得”的真正的图文自动转换的智能交互。

图3给出了根据本发明的一个示例性实施例的与用户的图文交互过程的示意图。

如图3所示，具体地，在用户的输入为图像的情况下，通过经过训练的深度学习模型来提取输入图像的视觉特征，并计算该视觉特征与样本数据集中的各样本数据内含有的图像的视觉特征之间的相似度，选取视觉特征相似度最高的图像所在的样本数据内含有的文本作为该输入图像的对应输出。

另一方面，在用户的输入为文本的情况下，通过经过训练的语言表征模型来提取输入文本的语义特征，并计算该语义特征与样本数据集中的各样本数据内含有的文本的语义特征之间的相似度，选取语义特征相似度最高的文本所在的样本数据内含有的图像作为该输入文本的对应输出。

另外，进一步地，在图文自动转换的基础上，便可以方便地实现图文音三者之间的自动转换，如图1所示。

通过图文音三者之间的自动转换，可以较好地支持用户的自主学习，例如，如果用户是还不是识字和写字的幼儿，则本发明的智能交互系统可以通过绘画(幼儿在画板上绘制的图像)和语音(通过使用连接的声音设备)方式来与幼儿交互，例如，在基于用户的档案信息确定该用户无法识字和写字的情况下，如果幼儿绘制了一副图像，经过上述的图文转换方法自动转换成文本之后，再将该文本通过文本语音转换设备来转换成语音并播报给幼儿听学，从而达到使得用户能够自主学习的目的。

本发明的文本和语音之间的双向转换处理可以使用现有的技术或者将来出现的技术，本发明对此不作任何限制。

例如，下面给出一个幼儿学习的应用场景：数字探索的例子。

首先，幼儿的输入为：幼儿说“1+1等于多少”；

然后，执行图文音之间的模态交互：通过多模态交互，先将幼儿的提问语音转为文字，然后由该文字生成图像，例如生成2个苹果的图像；

接下来，输出：1个苹果+1个苹果等于2个苹果的图展示，并语音读出供幼儿自主学习。

另外，进一步地，通过本发明提供的多模态交互能力，还可以为用户提供个性化学习，比如建立用户个人档案，记录其学习轨迹和成长过程，自动根据用户的学习情况设计个性化学习路径等。

以下将以幼儿学习为例，简单描述个性化学习的实现方式和过程。

1)可以利用OCR(Optical Character Recognition，光学字符识别)技术，识别出幼儿的字迹，或者利用音频技术识别幼儿的声纹，以笔迹或声纹作为幼儿个人的ID，建立用户个人档案。

2)构建幼儿学习知识路径，建立知识掌握的层次、先后关系，如按照先易后难的学习顺序，先掌握10以内数字、再掌握100以内的数字、再掌握10以内的加减法等等；

3)在幼儿学习过程中，记录幼儿的每一次多模态交互和认知过程，从中判断出幼儿当前的学习状态。

其中，实现幼儿个性化学习需要构建一套幼儿先后的认知知识体系，表示从易到难的学习过程。由此，可以在幼教数据集中的数据记录之间标记学习它们的先后顺序关系，比如ID＝2的数据的学习难度大于ID＝1，则最好先学习ID＝1的数据内容，再学习ID＝2的数据内容。

为了便于理解，将举出一个样本数据记录的内容示例如下。

ID＝123456789(本样本数据的ID，与后续的PREID和POSTID呼应)

TAG1＝颜色，TAG2＝方位(学习内容主要为认知三种颜色，顺便学习方位)

TEXT＝上边是蓝色，中间是橙色，下边是红色

IMAGE＝(在此省略)

IMAGEFEATURE＝(m维特征向量)

TEXTFEATURE＝(n维特征向量)

PREID＝123456798(主要学习内容为认知一种颜色，学习顺序在本数据之前)

POSTID＝123456798(主要学习内容为认知七种颜色，学习顺序在本数据之后)

由上可知，可以在一个样本数据的记录中，除了本样本数据的ID之外，额外记录与其属于同一知识点的，但是学习的顺序在前和在后的两个样本数据的ID，例如，可以如上述的例子中那样，分别将其记为PREID(学习顺序紧挨在本样本数据之前的样本数据)和POSTID(学习顺序紧挨在本样本数据之后的样本数据)。由此，可以方便地提供每个用户的学习路径。

另外，也可以使用另外的字段(可以专门称为“关系字段”，即不再使用样本数据ID字段)来标记上述的顺序关系，其中，可以使用一个关系字段来记录本样本数据与紧接在它之前的样本数据、紧接在它之后的样本数据的之间顺序关系，也可以使用三个关系字段来分别记录本样本数据与紧接在它之前的样本数据、紧接在它之后的样本数据的之间顺序关系，这些都不会影响到本发明的保护实质，因此，无需对其进行过多限制，只要在样本数据中含有用于识别样本数据的先后顺序关系的内容即可。

图4以幼教学习系统为例，详细给出了一个多模态智能交互学习的具体过程示意。由图4可知，通过本发明的多模态交互方案，可以基于图像、文本、语音等任何形式的输入，方便地向用户提供其它形式的输出，大大丰富了用户的交互方式，提升了用户的使用体验和效果。

根据本发明的一个示例性实施例的图文自动转换设备100用于在图像和文本之间进行双向自动转换，如图5所示，该设备包括数据集构建装置110、模型训练装置120、图文转换装置130。

其中，数据集构建装置110可以被配置用于构建样本数据集，该样本数据集中的每条样本数据均包含图像以及用于描述该图像的文本。

模型训练装置120可以被配置用于使用所述样本数据集中的图像来训练用于获得图像的视觉特征的深度学习模型，以及使用所述样本数据集中的文本来训练用于获得文本的语义特征的语言表征模型。

图文转换装置130可以被配置用于，响应于用户的输入，在用户的输入为图像的情况下，通过经过训练的深度学习模型来提取输入图像的视觉特征，并计算该视觉特征与样本数据集中的各样本数据内含有的图像的视觉特征之间的相似度，选取视觉特征相似度最高的图像所在的样本数据内含有的文本作为该输入图像的对应输出；以及在用户的输入为文本的情况下，通过经过训练的语言表征模型来提取输入文本的语义特征，并计算该语义特征与样本数据集中的各样本数据内含有的文本的语义特征之间的相似度，选取语义特征相似度最高的文本所在的样本数据内含有的图像作为该输入文本的对应输出。

根据本发明的一个示例性实施例的智能交互设备1000能够与用户进行图像、文本与音频形式的多模态智能交互，如图6所示，该智能交互设备1000包括交互接口1100、多模态转换装置1200。

其中，交互接口1100可以被配置为，通过该交互接口，用户提供图像、文本或音频形式的输入。

多模态转换装置1200包括作为上面描述的图文自动转换设备之一的图文转换设备1210以及文本语音转换设备1220。其中，文本语音转换设备1220被配置用于在文本和语音之间进行双向自动转换。

其中，响应于用户在交互接口的输入，多模态转换装置1200进行如下操作：

在用户的输入为文本的情况下，使用文本语音转换设备1220，将输入的文本转换成语音，呈现给用户；

在用户的输入为图像的情况下，使用图文自动转换设备1210，将所述输入转换为文本，呈现给用户，或者，使用文本语音转换设备，将所述输入转换成的文本转换成语音，呈现给用户；

在用户的输入为语音的情况下，使用文本语音转换设备1220，将输入的语音转换成文本，直接呈现给用户，或者，使用图文自动转换设备1210，将所述语音转换成的文本转换为图像，呈现给用户。

进一步地，上述的智能交互设备1000还可以包括记录装置1300，记录装置1300被配置用于记录与用户的交互过程，并记入用户个人档案。

进一步地，上述的智能交互设备1000还可以包括内容推送装置1400，内容推送装置1400可以被配置用于基于与用户的交互情况，向用户作出内容推荐和/或发送用户使用报告。

如图7所示，根据本发明的一个示例性实施例的可远程提供智能交互服务的智能交互系统可以包括至少一个智能交互客户端10000以及智能交互服务器20000。

其中，该智能交互系统能够与用户进行图像、文本与音频形式的多模态智能交互。

其中，如图8所示，所述智能交互客户端10000可以包括交互接口11000、发送装置12000、接收装置13000、呈现装置14000。

其中，交互接口11000可以被配置用于，通过该交互接口，用户提供图像、文本或音频形式的输入。

发送装置12000可以被配置用于将用户的输入发送给交互服务器。

接收装置13000可以被配置用于接收来自交互服务器的输出，并将该输出发送给呈现装置14000。

呈现装置14000可以被配置用于将所述输出呈现给用户。

另一方面，如图9所示，所述智能交互服务器20000可以包括接收装置21000、图文自动转换设备22000、文本语音转换设备23000、发送装置24000。

其中，接收装置21000可以被配置用于接收来自智能交互客户端的所述用户的输入。

图文自动转换设备22000可以是上面描述的图文自动转换设备之一。

文本语音转换设备23000可以被配置用于在文本和语音之间进行双向自动转换。

发送装置24000可以被配置用于向智能交互客户端发送所述用户的输入所对应的输出。

其中，针对接收到的所述用户的输入，在智能交互服务器20000中执行如下操作：在用户的输入为文本的情况下，文本语音转换设备23000将输入的文本转换成语音，作为对应的输出发送至智能交互客户端10000；在用户的输入为图像的情况下，图文自动转换设备22000将所述输入转换为文本，作为对应的输出发送至智能交互客户端10000，或者，文本语音转换设备23000将所述输入转换成的文本转换成语音，作为对应的输出发送至智能交互客户端10000；在用户的输入为语音的情况下，文本语音转换设备23000将输入的语音转换成文本，发送至智能交互客户端10000，或者，图文自动转换设备22000将所述语音转换成的文本转换为图像，作为对应的输出发送至智能交互客户端10000。

这里，本发明的智能交互机器不限于智能交互平板，还可以包括智能交互终端，例如智能手机、智能电脑等等。

参见图10，该智能交互机器1包括存储器10和处理器20。

处理器20可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器20可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器20可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器10上存储有可执行代码，当所述可执行代码被所述处理器20执行时，使所述处理器20执行上面描述的方法之一。其中，存储器10可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器20或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器10可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器10可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、minSD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图等等显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种图文自动转换方法，用于在图像和文本之间进行双向自动转换，其特征在于，该方法包括：

构建样本数据集，该样本数据集中的每条样本数据均包含图像以及用于描述该图像的文本；

使用所述样本数据集中的图像来训练用于获得图像的视觉特征的深度学习模型，以及使用所述样本数据集中的文本来训练用于获得文本的语义特征的语言表征模型；以及

响应于用户的输入：

在用户的输入为图像的情况下，通过经过训练的深度学习模型来提取输入图像的视觉特征，并计算该视觉特征与样本数据集中的各样本数据内含有的图像的视觉特征之间的相似度，选取视觉特征相似度最高的图像所在的样本数据内含有的文本作为该输入图像的对应输出；以及

在用户的输入为文本的情况下，通过经过训练的语言表征模型来提取输入文本的语义特征，并计算该语义特征与样本数据集中的各样本数据内含有的文本的语义特征之间的相似度，选取语义特征相似度最高的文本所在的样本数据内含有的图像作为该输入文本的对应输出。

2.如权利要求1所述的图文自动转换方法，其特征在于，所述深度学习模型包括卷积神经网络模型，所述语言表征模型包括基于变换器的双向编码器表征。

3.如权利要求1～2中的任何一项所述的图文自动转换方法，其特征在于，所述样本数据集中的样本数据包括用于标记该样本数据内的作为呈现内容的图像与文本将呈现的先后顺序的关系字段、用于标记每个样本数据的特征或属性信息的标签字段。

4.一种智能交互方法，用于在图像、文本与音频之间进行自动转换以便实现与用户的多模态智能交互，其特征在于，该方法包括：

响应于用户的输入：

在用户的输入为文本的情况下，将输入的文本转换成语音，呈现给用户；

在用户的输入为图像的情况下，使用如权利要求1～3中的任何一项所述的图文自动转换方法将所述输入转换为文本，呈现给用户，或者，将所述输入转换成的文本转换成语音，再呈现给用户；

在用户的输入为语音的情况下，将输入的语音转换成文本，直接呈现给用户，或者，使用如权利要求1～3中的任何一项所述的图文自动转换方法，将所述语音转换成的文本转换为图像，呈现给用户。

5.如权利要求4所述的智能交互方法，其特征在于，该方法还包括：

记录与用户的交互过程，记入用户个人档案；以及

基于与用户的交互情况，向用户作出内容推荐和/或用户使用报告。

6.一种图文自动转换设备，用于在图像和文本之间进行双向自动转换，其特征在于，该设备包括：

数据集构建装置，被配置用于构建样本数据集，该样本数据集中的每条样本数据均包含图像以及用于描述该图像的文本；

模型训练装置，被配置用于使用所述样本数据集中的图像来训练用于获得图像的视觉特征的深度学习模型，以及使用所述样本数据集中的文本来训练用于获得文本的语义特征的语言表征模型；以及

图文转换装置，被配置用于，响应于用户的输入：

7.如权利要求6所述的图文自动转换设备，其特征在于，所述深度学习模型包括卷积神经网络模型，所述语言表征模型包括基于变换器的双向编码器表征。

8.如权利要求6～7中的任何一项所述的图文自动转换设备，其特征在于，所述样本数据集中的样本数据包括用于标记该样本数据内的作为呈现内容的图像与文本将呈现的先后顺序的关系字段、用于标记每个样本数据的特征或属性信息的标签字段。

9.一种智能交互设备，能够与用户进行图像、文本与音频形式的多模态智能交互，其特征在于，该设备包括：

交互接口，通过该交互接口，用户提供图像、文本或音频形式的输入；

多模态转换装置，包括:

如权利要求6～8中的任何一项所述的图文自动转换设备；

文本语音转换设备，被配置用于在文本和语音之间进行双向自动转换；

其中，响应于用户在交互接口的输入，所述多模态转换装置进行如下操作：

在用户的输入为文本的情况下，使用文本语音转换设备，将输入的文本转换成语音，呈现给用户；

在用户的输入为图像的情况下，使用图文自动转换设备，将所述输入转换为文本，呈现给用户，或者，使用文本语音转换设备，将所述输入转换成的文本转换成语音，呈现给用户；

在用户的输入为语音的情况下，使用文本语音转换设备，将输入的语音转换成文本，直接呈现给用户，或者，使用图文自动转换设备，将所述语音转换成的文本转换为图像，呈现给用户。

10.如权利要求9所述的智能交互设备，其特征在于，还包括：

记录装置，被配置用于记录与用户的交互过程，并记入用户个人档案；以及

内容推送装置，被配置用于基于与用户的交互情况，向用户作出内容推荐和/或发送用户使用报告。

11.一种智能交互系统，能够与用户进行图像、文本与音频形式的多模态智能交互，其特征在于，该智能交互系统包括至少一个智能交互客户端和能够远程控制的智能交互服务器，其中，

所述智能交互客户端包括：

发送装置，被配置用于将用户的输入发送给交互服务器；

接收装置，被配置用于接收来自交互服务器的输出，并将该输出发送给呈现装置；以及

呈现装置，被配置用于将所述输出呈现给用户；

并且，所述智能交互服务器包括:

接收装置，被配置用于接收来自智能交互客户端的所述用户的输入；

如权利要求6～8中的任何一项所述的图文自动转换设备；

文本语音转换设备，被配置用于在文本和语音之间进行双向自动转换；以及

发送装置，被配置用于向智能交互客户端发送所述用户的输入所对应的输出，

其中，针对接收到的所述用户的输入，在智能交互服务器中执行如下操作：

在用户的输入为文本的情况下，文本语音转换设备将输入的文本转换成语音，作为对应的输出发送至智能交互客户端；

在用户的输入为图像的情况下，图文自动转换设备将所述输入转换为文本，作为对应的输出发送至智能交互客户端，或者，文本语音转换设备将所述输入转换成的文本转换成语音，作为对应的输出发送至智能交互客户端；

在用户的输入为语音的情况下，文本语音转换设备将输入的语音转换成文本，发送至智能交互客户端，或者，图文自动转换设备将所述语音转换成的文本转换为图像，作为对应的输出发送至智能交互客户端。

12.一种智能交互客户端，能够与用户进行图像、文本与音频形式的多模态智能交互，其特征在于，该智能交互客户端包括：

发送装置，被配置用于将用户的输入发送给交互服务器；

呈现装置，被配置用于将所述输出呈现给用户；

其中，所述交互服务器针对接收到的所述用户的输入，执行如下操作，以得到对应于所述输入的输出：

在用户的输入为文本的情况下，将输入的文本转换成语音，作为对应的输出发送至智能交互客户端；

在用户的输入为图像的情况下，将所述输入转换为文本，作为对应的输出发送至智能交互客户端，或者，将所述输入转换成的文本转换成语音，作为对应的输出发送至智能交互客户端；

在用户的输入为语音的情况下，将输入的语音转换成文本，发送至智能交互客户端，或者，将所述语音转换成的文本转换为图像，作为对应的输出发送至智能交互客户端。

13.一种智能交互服务器，与智能交互客户端通信，以经由该智能交互客户端实现与用户进行图像、文本与音频形式的多模态智能交互，其特征在于，该智能交互服务器包括:

接收装置，被配置用于接收来自智能交互客户端的用户输入；

如权利要求6～8中的任何一项所述的图文自动转换设备；

发送装置，被配置用于向智能交互客户端发送所述用户输入所对应的输出，

其中，针对接收到的所述用户输入，在智能交互服务器中执行如下操作：

在用户输入为文本的情况下，文本语音转换设备将输入文本转换成语音，作为对应的输出发送至智能交互客户端；

在用户输入为图像的情况下，图文自动转换设备将输入图像转换为文本，作为对应的输出发送至智能交互客户端，或者，文本语音转换设备将输入图像转换成的文本转换成语音，作为对应的输出发送至智能交互客户端；

在用户输入为语音的情况下，文本语音转换设备将输入的语音转换成文本，发送至智能交互客户端，或者，图文自动转换设备将输入的语音转换成的文本转换为图像，作为对应的输出发送至智能交互客户端。

14.一种智能交互机器，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1～5中任何一项所述的方法。

15.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，使所述处理器执行如权利要求1～5中任何一项所述的方法。