CN115378890A

CN115378890A - 信息输入方法、装置、存储介质及计算机设备

Info

Publication number: CN115378890A
Application number: CN202210971793.6A
Authority: CN
Inventors: 姚波怀
Original assignee: Tencent Technology Wuhan Co Ltd
Current assignee: Tencent Technology Wuhan Co Ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-22
Anticipated expiration: 2042-08-12
Also published as: CN115378890B

Abstract

本申请公开了一种信息输入方法，该方法包括：显示会话界面，该会话界面包括至少一条文本会话信息；响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，该至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。本申请应用人工智能技术对会话场景中的文本信息进行向量化得到文本向量，进而基于该文本向量生成会话场景中文本信息对应具有网络热词属性的多模态的会话内容，从而增强会话场景中会话内容的多样性和感染力。

Description

信息输入方法、装置、存储介质及计算机设备

技术领域

本申请涉及人机交互技术领域，更具体地，涉及一种信息输入方法、装置、存储介质及计算机设备。

背景技术

即时通信(InstantMessaging，IM)是指能够即时发送和接收互联网消息等的业务。会话聊天软件作为一种即时通讯的工具，能够为用户提供实时的网络交流服务。在会话聊天的场景中，参与聊天的用户通常利用输入文字的形式进行交流。

为了提高用户的沟通效率，有关技术在用户会话时，可以根据用户输入的文字自动推荐表情图像资源库中的图像(表情包)作为回复内容。然而，输入文字通常具有复杂的情感含义，仅靠表情图像来表示情感的方法相对单一。

发明内容

本申请实施例提供一种信息输入方法、装置、存储介质以及计算机设备。旨在提升会话场景中为用户会话内容的多样性和感染力。

一方面，本申请实施例提供一种信息输入方法，该方法包括：显示会话界面，会话界面包括至少一条文本会话信息，至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种；响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，其中，至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。

另一方面，本申请实施例还提供一种信息输入方法，该方法包括：获取会话界面中的至少一条文本会话信息，至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种；基于获取的会话界面中的至少一条文本会话信息，在候选区中自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，其中，至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。

另一方面，本申请实施例还提供一种信息输入装置，该装置包括：会话显示模块，用于显示会话界面，会话界面包括至少一条文本会话信息，至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种；第一响应模块，用于响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，其中，至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；第二响应模块，用于响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。

另一方面，本申请实施例还提供一种信息输入装置，该装置包括：文本获取模块，用于获取会话界面中的至少一条文本会话信息，至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种；信息生成模块，用于基于获取的会话界面中的至少一条文本会话信息，在候选区中自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，其中，至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；信息输入模块，用于响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。

另一方面，本申请实施例还提供一种计算机设备，该计算机设备包括处理器以及存储器，存储器存储有计算机程序指令，计算机程序指令被处理器调用时执行上述的信息输入方法。

另一方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有程序代码，其中，在所述程序代码被处理器运行时执行上述的信息输入方法。

另一方面，本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机执行上述信息输入方法中的步骤。

本申请提供的一种信息输入方法，可以显示会话界面，会话界面包括至少一条文本会话信息，该至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种，响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，其中，该至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段，进一步地，响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。如此，可以从会话界面中获取至少一条文本会话信息，并生成该至少一条文本会话信息对应的文本向量，进而基于文本向量为该至少一条文本会话信息匹配到至少一条多模态会话信息，也即为用户推荐除了表情图像之外具有网络热词属性的其他模态的会话内容，例如音频片段或视频片段，从而，在提高会话场景中会话内容多样性的同时，增加会话内容的感染力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种系统架构示意图。

图2示出了本申请实施例提供的一种信息输入方法的流程示意图。

图3示出了本申请实施例提供的一种会话界面的示意图。

图4示出了本申请实施例提供的一种会话界面中悬浮窗的示意图。

图5示出了本申请实施例提供的一种会话界面中回复候选圈的示意图。

图6示出了本申请实施例提供的另一种信息输入方法的流程示意图。

图7示出了本申请实施例提供的一种即时通讯的应用场景示意图。

图8示出了本申请实施例提供的一种预设多模态匹配网络的网络架构图。

图9示出了本申请实施例提供的一种会话信息显示示意图。

图10示出了本申请实施例提供的另一种会话信息显示示意图。

图11示出了本申请实施例提供的一种会话信息确定交互示意图。

图12示出了本申请实施例提供的另一种会话信息确定交互示意图。

图13示出了本申请实施例提供的又一种会话信息显示示意图。

图14示出了本申请实施例提供的一种会话信息生成方法的流程图。

图15示出了本申请实施例提供的一种信息输入装置的模块框图。

图16示出了本申请实施例提供的另一种信息输入装置的模块框图。

图17是本申请实施例提供的一种计算机设备的模块框图。

图18是本申请实施例提供的一种计算机可读存储介质的模块框图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。

在说明书、权利要求书和上述附图所描述的一些流程中，包含了按照特定顺序出现的多个步骤，但应该清楚了解，这些步骤可以不按照其在本文中出现的顺序来执行或并行执行，步骤序号仅仅是用于区分开各个不同的步骤，序号本身不代表任何的执行顺序。此外，本文中的“第一”和“第二”等描述，是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在网络会话的场景中利用表情符号(表情图像)来表达情感已经成为用户进行网络通讯的习惯，而针对表情的推荐算法也逐渐成为会话过程的重要组成部分。目前的表情推荐算法主要是基于人工为表情符号标注文字信息，也即文字标签，通过对文字标签进行匹配来达到推荐表情符号的目的。这样的推荐方式仅能为用户提供表情符号作为会话内容，然而，会话过程中的以文字形式的会话内容通常具有复杂的情感含义，仅靠表情符号无法准确表示出文字形式的会话内容所包含的情感内涵并且表示效果非常有限。

为了解决上述问题，发明人经过研究，提出了本申请实施例提供的信息输入方法，该方法可以显示会话界面，并响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，该至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段，进一步地，响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。如此，可以基于从会话界面中获取的至少一条文本会话信息生成对应的文本向量，进而基于文本向量为该至少一条文本会话信息匹配到至少一条具有网络热词属性的多模态会话信息，例如，音频片段或视频片段，从而，通过为会话内容增加感染力，准确地体现出会话内容所包含的情感内涵，并提高会话场景中会话内容多样性。

下面先对本申请所涉及到的信息输入方法的系统的架构进行介绍。

如图1所示，本申请实施例提供的信息输入方法可以应用在系统300中，数据采集设备320用于采集训练数据。针对本申请实施例的信息输入方法来说，训练数据可以包括用于训练的文本样本信息和多模态样本信息，其中，多模态样本信息可以至少包括音频样本信息和视频样本信息中的一种。在采集到训练数据之后，数据采集设备320可以将这些训练数据存入数据库340，训练设备360基于数据库340中维护的训练数据训练得到目标模型301。

训练设备360基于输入的训练数据集对预设多模态匹配网络进行训练，直至预设多模态匹配网络满足预设条件，得到训练后的目标模型301，也即多模态匹配模型。其中，预设条件可以为：目标损失函数的总损失值小于预设值、目标损失函数的总损失值不再变化、或者训练次数达到预设次数等。

上述目标模型301能够用于实现本申请实施例的信息输入方法。本申请实施例中的目标模型301具体可以为深度神经网络(Deep Neural Network，DNN)。需要说明的是，在实际的应用中，数据库340中维护的训练数据不一定都来自于数据采集设备320的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备360也不一定完全基于数据库340维护的训练数据进行目标模型301的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备360训练得到的目标模型301可以应用于不同的系统或设备中，如应用于图1所示的执行设备310，所述执行设备310可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(Augmented Reality，AR)AR/虚拟现实(Virtual Reality，VR)等，还可以是服务器或者云端等。

在图1中，执行设备310可以用于与外部设备进行数据交互，例如，用户可以使用客户设备330通过网络向执行设备310输入数据。输入数据在本申请实施例中可以包括：客户设备输入的会话场景中的聊天文字。在执行设备310对输入数据进行预处理，或者在执行设备310的计算模块312执行计算等相关的处理过程中，执行设备310可以调用数据存储系统350中的数据、代码等以用于相应的计算处理，也可以将相应计算处理得到的数据、指令等存入数据存储系统350中。

最后，执行设备310将处理结果，例如，基于多模态索引库和多模态资源库匹配的多模态会话信息通过网络返回给客户设备330，从而提供给用户。值得说明的是，训练设备360可以针对不同的目标或不同的任务，基于不同的训练数据生成相应的目标模型301，该相应的目标模型301即可以用于实现上述目标或或者完成上述任务，从而为用户提供所需的结果。

可选地，图1所示的系统可以为Client-Server(C/S)系统架构，执行设备310可以为服务端(如，云服务器)，客户设备330可以为客户端(如，智能手机)。用户的智能手机中可以安装有社交软件，用户在使用该社交软件进行会话聊天时，社交软件将获取的聊天文字通过网络上传至云服务器，云服务器在接受到聊天文字时，可以生成至少一个多模态会话信息，并将至少一个多模态会话信息返回至智能手机，进而社交软件的会话界面可以显示包括至少一个多模态会话信息的回复候选组件，进而社交软件响应于用户在回复候选组件上对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。

值得注意的是，图1仅是本申请实施例提供的一种系统架构的示意图，本发明实施例描述的系统的架构以及应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定。本领域普通技术人员可知，随着系统架构的演变和新的应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

请参阅图2，图2示出了本申请一个实施例提供的信息输入方法的流程示意图。在具体的实施例中，所述信息输入方法应用于如图15所示的信息输入装置1200以及配置有信息输入装置1200的计算机设备1400(图17)。

下面将以计算机设备为例，说明本实施例的具体流程，可以理解的是，本实施例应用的计算机设备可以为服务器或者终端等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。所述信息输入方法具体可以包括以下步骤：

步骤S110：显示会话界面。

考虑到用户在会话聊天的过程中会通过分享音频以及视频片段等来表达自己的情感及心情，而作为表达情感的会话内容仅仅包含表情包和文字的形式，这两种表示形式过于单一，表示效果非常有限。为此，本申请提出以多模态形式的会话内容，也即多模态会话信息来提高会话场景中会话内容多样性，增加会话内容的感染力。

在本申请实施例中，会话界面指的是当前用户与他人(如，其他用户及客服人员等)或智能设备(如，客服机器人)进行会话的界面。请一并参阅图3，图3示出了本申请实施例提供的一种会话界面的示意图，如图3所示，用户正在智能手机的会话界面410上与他人进行会话聊天，会话界面410中可以包括对第一会话组件411和第二会话组件412。

其中，第一会话组件411用于在会话界面410显示接收他人发送给当前用户的文本信息，也即已接收文本会话信息。第二会话组件412用于在会话界面410显示当前用户发送给他人的文本信息，也即已发送文本会话信息。会话界面410下方可以为输入法显示界面420，在输入法界面420中，显示有编辑区421，用户可以在编辑区421中编辑准备发送给他人的文本信息。需要说明的是，会话界面410中包括第一会话组件411和第二会话组件412和编辑区421的显示形态和相对位置可以根据不同客户端设计需求进行设置，在此不做限定。

步骤S120：响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息。

为了提升会话场景中用户聊天时的会话内容的多样性，可以基于会话界面中的文本会话信息生成多模态会话信息。该多模态会话信息可以为音频片段或者视频片段等。考虑到有关技术提供的图片信息(表情包)所体现的情感内涵比较生硬，并且由于不易更新，使得图片信息无法适配于快速变化的网络社交环境。

因此，本申请提供了具有网络热词属性的多模态会话信息，也即提供的音频片段或者视频片段等形式的会话信息具有流行于当下网络语言环境中使用频率较高的新兴词汇(网络热词)的属性。如此，使得会话聊天中的会话内容具有感染力，为会话的参与者提供更好的网络社交体验。

本申请实施例可以响应于会话界面中显示的已发送文本会话信息，自动生成与该已发送文本会话信息匹配的至少一条多模态会话信息。也可以响应于会话界面中的已接收文本会话信息，自动生成与该已接收文本会话信息匹配的至少一条多模态会话信息。还可以基于会话内容之间具有自然的上下文连接关系的原理，响应于已发送文本会话信息和已接收文本会话信息，自动生成至少一条多模态会话信息。

在一些实施例中，该自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息的步骤可以包括：

(1)从多模态索引库中检索出至少一条文本会话信息对应的至少一个会话向量。

目前，通常以当前用户的输入内容与图像资源库进行匹配的方式，获得与输入内容匹配的会话内容。例如，用户输入“我好开心”，使用“开心”在图像资源库匹配到带有标签为“开心”的表情图像，但用户输入与“我好开心”具有相同情感含义的其他文字内容时，例如，“笑死我了”就不一定能获得相关的表情图像。

这是因为，现有方案仅仅根据文字内容与资源库中的图像的标签来进行简单的匹配，未考虑到文字内容的理解需要覆盖到语义，导致在图像资源库匹配表情图像的语义泛化能力差，也即只能理解固定的表达。

由于，向量可以反映出对象的核心特征，例如，在自然语言处理(NaturalLanguage Processing，NLP)领域中，通过比较向量可以进行语义相似的文本。为此，本申请提出将在会话过程中的文本会话信息和资源库中的多模态会话信息，统一映射到向量空间，通过向量检索的方式，为文本会话信息检索到精确地多模态会话信息。需要说明的是，本申请实施例中的文本会话信息可以为多种语言类型，包括但不限于中文及英文。

作为一种实施方式，该从多模态索引库中检索出至少一条文本会话信息对应的至少一个会话向量的步骤可以包括：

(1.1)将至少一条文本会话信息输入至文本编码器，通过文本编码器输出至少一条文本会话信息对应的文本向量。

(1.2)基于文本向量在多模态索引库中进行向量检索，得到与文本向量匹配的至少一个会话向量。

其中，多模态索引库用于存储预设向量，该预设向量是由多模态匹配模型生成的。多模态匹配模型的输入为文本资源信息和多模态资源信息，输出为与文本资源向量匹配的预设向量。文本资源信息和多模态资源信息是在会话场景的历史的信息，也即会话历史信息中，挖掘的大量具有网络热词属性的文字、音频片段或者视频片段。例如，用户在聊天过程中，产生了大量的包含多模态的聊天语料，用户先发送了文字信息A，然后发送一个当前网络上热播的音频片段B，这样，文字信息A可以作为文本资源信息，音频片段B可以作为多模态资源信息。

示例性地，可以将会话界面中的已接收文本会话信息输入至文本编码器，通过文本编码器输出该已接收文本会话信息对应的文本向量。进一步地，通过多模态索引库，可以为已接收文本会话信息的文本向量检索到匹配的至少一个会话向量。

具体地，计算出多模态索引库中每个预设向量与文本向量的向量距离，对所有向量距离进行降序排序，得到预设数量的中间向量，将向量距离满足距离阈值的中间向量作为会话向量。

在本申请实施例中，基于向量距离确定会话向量的方法，因为向量计算量小且向量可以准确地表示对象的特征，进而可以提高生成多模态信息的效率和准确性。

由于深度学习(Deep Learning)在语义检索方向的应用比较成熟，本申请可以先基于文本会话信息生成用于用户会话过程中使用的文字，也即预测文本数据。进而再基于预测文本数据生成最终的多模态会话信息，以此来提高生成的多模态会话信息的精确性。

作为另一种实施方式，对至少一条文本会话信息进行会话预测，得到与至少一条文本会话信息匹配的预测文本数据，进而对预测文本数据进行编码，得到对应的预测文本向量，并基于预测文本向量在多模态索引库中进行向量检索，得到与预测文本向量匹配的会话向量。

(2)从多模态资源库中匹配到每个会话向量对应的多模态会话信息。

其中，多模态资源库用于存储每个会话向量对应的会话信息，这样得到会话向量时，可以在多模态资源库中匹配到每个会话向量对应的会话信息。多模态会话信息为可以输入到会话界面的音频片段或者视频片段。

作为一种实施方式，可以基于每个会话向量在多模态资源库进行检索，具体地，可以将每个会话向量与多模态资源库中的向量-信息对进行匹配，当会话向量与某个向量-信息对匹配时，可以将该向量-信息对的会话信息作为该会话向量的会话信息。

(3)在会话界面的悬浮窗中显示至少一条多模态会话信息。

本申请实施例可以响应于会话界面中的至少一条文本会话信息，自动生成与该至少一条文本会话信息匹配的至少一条多模态会话信息。进而通过虚拟组件显示该至少一条多模态会话信息。其中，虚拟组件仅仅是一种基于计算机编程技术实现的，具有展示至少一条多模态会话信息功能的应用组件(也可以理解为控件)，从而利用可视化虚拟控件的形式进行展示多模态会话信息，也便于当前用户在计算机设备上对多模态会话信息进行确定操作的交互。该虚拟组件的显示形态可以根据交互场景进行设计，例如，设计为环形的候选圈、矩形的候选栏和悬浮窗等显示形态，在此不做限定。

作为一种实施方式，当自动生成与至少一条文本会话信息匹配的至少一条多模态会话信息时，可以在会话界面的悬浮窗中显示该至少一条多模态会话信息。请参阅图4，图4示出了一种会话界面中悬浮窗的示意图。如图4所示，会话界面500中显示有悬浮窗520，该悬浮窗520中三个显示框，每个显示框中可以显示一条多模态会话信息，例如，音频片段或视频片段的封面缩略图。

可选地，请参阅图5，图5示出了一种会话界面中回复候选圈的示意图。如图5所示，会话界面600中显示有回复候选圈610，该回复候选圈610可悬浮于会话界面600中，用户可以在回复候选圈610中通过环形地滑动操作，选择其他的多模态会话信息。

步骤S130：响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。

考虑到自动生成并显示的多模态会话信息可以有多条，因此用户可以选择自己中意的一条多模态会话信息输入到会话界面中。其中，确定操作为当前用户针对至少一条多模态会话信息发出的选择动作，确定操作可以包括长按或点击等动作。

作为一种实施方式，在会话界面的悬浮窗中显示至少一条多模态会话信息时，可以响应于对悬浮窗中显示的至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到所述会话界面。例如，响应于用户对触控屏上显示的悬浮窗中的一条音频片段的点击，将该音频片段输入到会话界面中。

本申请实施例中，可以显示会话界面，会话界面包括至少一条文本会话信息，该至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种，响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，其中，该至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段，进一步地，响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。如此，可以从会话界面中获取至少一条文本会话信息，并生成该至少一条文本会话信息对应的文本向量，进而基于文本向量为该至少一条文本会话信息匹配到至少一条多模态会话信息，也即为用户推荐除了表情图像之外具有网络热词属性的其他模态的会话内容，例如音频片段或视频片段，从而，在提高会话场景中会话内容多样性的同时，增加会话内容的感染力。

结合上述实施例所描述的方法，以下将举例作进一步详细说明。

本申请的信息输入方法涉及人工智能(Artificial Intelligence,AI)技术，人工智能技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本实施例提供的信息输入方法具体涉及人工智能的深度学习技术，下面将以信息输入装置具体集成在计算机设备中为例进行说明，并将针对图6所示的流程结合图7所示的具体应用场景中的系统架构图进行详细地阐述，该计算机设备可以为服务器或者终端设备等。请参阅图6，图6示出了本申请实施例提供的另一种数据方法，在具体的实施例中，该信息输入方法可以运用到如图7所示的即时通讯场景中。

即时通讯服务供应商提供服务端，该服务端可以包括云训练服务器710以及云执行服务器730。云训练服务器710用于训练多模态匹配模型。进而根据多模态匹配模型来构建多模态索引库，云训练服务器710还可以用于构建多模态资源库。云执行服务器730用于部署多模态索引库和多模态资源库，为客户端发送的文本信息输入对应的会话信息。其中，客户端为用户使用即时通讯服务时，在智能手机上安装的通讯客户端720。所述信息输入方法具体可以包括以下步骤：

步骤S210：计算机设备获取训练数据集。

本申请实施例提供的信息输入包括对预设多模态匹配网络的训练。对上述预设多模态匹配网络的训练可根据获取的训练样本数据集预先进行的，后续在每次需要生成会话向量时，可利用训练得到的多模态匹配模型直接计算，而无需每次生成会话向量时，再次进行网训练。其中，训练数据集包括文本样本信息以及与文本样本信息匹配的多模态样本信息。

作为一种实施方式，计算机设备可以获取多模态交互信息，该多模态交互信息指的是用户在使用会话应用程序进行会话聊天时，会话应用程序生成的具有上下文关系以及网络热词属性的数据。该多模态交互信息文本交互信息和内容交互信息，该内容交互信息至少包括视频交互信息和音频交互数信息。

进一步地，计算机设备可以基于文本交互信息和内容交互信息生成训练样本对，该训练样本对由文本样本信息和多模态样本信息组成，其中，多模态样本信息可以至少包括音频样本信息、视频样本信息和则图像样本信息中的一种。如此，计算机设备可以基于得到的多个训练样本对构建训练数据集。

步骤S220：计算机设备获取预设多模态匹配网络。

示例性地，请参阅图8，图8示出了一种预设多模态匹配网络的网络架构图。如图8所示，文本样本信息可以通过文本编码器获得其表示向量v_text,图像样本信息可以通过图像编码器获得其表示向量v_picture,视频样本信息可以通过视频编码器获得其表示向量v_video，音频样本信息可以通过音频编码器获取其表示向量v_voice，进而计算出向量v_text与向量v_picture或向量v_video或向量v_voice的余弦相似度，进而根据余弦相似度对预设多模态匹配网络进行迭代训练。

具体地，预设多模态匹配网络包括文本编码器和多模态编码器。例如，文本编码器可以包括FastText、TextCNN、Esim、Transformer以及Bert等深度模型。多模态编码器可以包括图像编码器(如，CNN、VGG、Resnet等深度模型)、视频编码器(如，TimeSformer和ViViT等深度模型)以及音频编码器(如，VGGish、AST等深度模型)。

步骤S230：计算机设备通过训练据集对预设多模态匹配网络进行迭代训练，直至预设多模态匹配网络满足预设条件，得到训练后的多模态匹配模型。

示例性的，云训练服务器710可以将文本样本信息输入文本编码器，得到文本训练向量v_text，并将多模态样本信息输入多模态编码器，得到多模态训练向量v_response(可以包括v_picture，v_video，v_voice)。

进一步地，计算机设备可以计算得到文本训练向量v_text和多模态训练向量

v_response的余弦相似度S(t,r)，计算公式如下：

进一步地，计算机设备可以根据余弦相似度计算得到确定文本样本信息后，确定多模态样本信息的后验概率，计算公式如下：

其中，γ表示的是Softmax函数平滑因子，多模态样本信息集

由一个正样本和N个负样本组成，基于极大似然估计得到目标损失函数为：

进一步地，计算机设备可以根据目标损失函数L(Λ)对预设多模态匹配网络进行迭代训练，直至预设多模态匹配网络满足预设条件，得到训练后的多模态匹配模型。需要说明的是，预设条件可以为：目标损失函数的总损失值小于预设值、目标损失函数的总损失值不再变化、或者训练次数达到预设次数等。可选的，可以采用优化器去优化目标损失函数，基于实验经验设置学习率(Learning Rate)、训练时的批量大小(Batch Size)以及训练的时期(Epoch)。

步骤S240：计算机设备基于多模态匹配模型生成多模态索引库。

目前，现有技术通过匹配用户输入内容与图像描述内容，也即根据文字内容与资源库中的图像的标签建立起文字与图像的链接关系。然而，通常图像的描述无法通过机器的方式获得，需要人工参与大量的标注工作，导致资源库的建设工作量很大。同时，由于标注人员的知识面有限，特定领域及特定人群所使用的图像，标注人员未必清楚，因此标注质量也无法保证。

为此，本申请提出将具有相似内容含义的文本资源信息和多模态资源信息编码为相似的向量，并基于向量构建多模态索引库。通过在多模态索引库进行向量检索得到与文本会话信息的文本向量相似的多模态会话向量，一方面可以提高检索效率，从而提高为用户推荐回复使用的会话信息的效率，另一方面还可以增加会话信息推荐的精确性。

作为一种实施方式，计算机设备可以获取文本资源信息和多模态资源信息，该文本资源信息和多模态资源信息为基于具有网络热词属性的会话历史信息生成，该多模态资源信息至少包括音频资源信息和视频资源信息中的一种。用户聊天过程中会产生多模态的聊天语料，可以对这些聊天语料进行数据处理，例如，数据清洗，进而得到文本资源信息和多模态资源信息。

进一步地，计算机设备可以将文本资源信息和多模态资源信息输入至多模态匹配模型，得到与文本资源向量匹配的预设向量，如此，计算设备可以基于多个预设向量，根据索引结构生成多模态索引库。可选地，也可以在互联网中获取具有热词属性的常用语料来生成文本资源信息和多模态资源信息。在较短的周期内更新多模态索引库，进而使得基于多模态索引库生成的多模态会话数据可以紧跟网络语言环境，增强会话内容的感染力。

步骤S250：计算机设备显示会话界面。

示例性地，计算机设备在即时通讯场景中可以显示会话界面。例如，用户在智能手机上安装了通讯客户端720，当用户开启该通讯客户端720时，该智能手机的通讯客户端显示出聊天界面。可选地，在用户聊天过程中，客户端720可以响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息。可选地，在用户聊天过程中使用的输入法也可以基于获取的会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息。

步骤S260：计算机设备响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息。

示例性地，请参阅图9，图9示出了一种会话信息显示示意图。当智能手机接收到远端发送来的已接收文本会话信息时，可以通过会话界面800中的第一会话组件810显示出该已接收文本会话信息，进一步地，智能手机可以将该已接收文本会话信息通过网络发送至云执行服务器730，云执行服务器730接收到智能手机发送的已接收文本会话信息时，自动生成与已接收文本会话信息匹配的具有网络热词属性的两条音频片段和一条视频片段。

具体地，云执行服务器730可以将已接收文本会话信息输入至文本编码器，通过文本编码器输出该已接收文本会话信息对应的文本向量。进一步地，通过多模态索引库，可以为已接收文本会话信息的文本向量检索到匹配的两条音频向量和一条视频向量，并基于两条音频向量和一条视频向量在多模态资源库进行检索，分别得到两条音频向量对应的音频片段和一条视频向量对应的视频片段。

例如，云执行服务器730可以将已接收文本会话信息输入至Transformer深度模型，进而Transformer深度模型输出该已接收文本会话信息对应的文本向量。进一步地，云执行服务器730可以将在得到已接收文本会话信息对应的文本向量时，可以利用向量检索工具(Annoy或Faiss)计算出多模态索引库中每个预设向量与文本向量的向量距离，并对所有向量距离进行降序排序，得到Top-3个中间向量，3为预设数量，进而将向量距离满足距离阈值的中间向量作为最终的会话向量，也即两条音频向量和一条视频向量。

进一步地，云执行服务器730将该两条音频片段和一条视频片段发送到智能手机，智能手机在会话界面800的悬浮窗820上显示出两条音频片段和一条视频片段。

可选地，请参阅图10，图10示出了另一种会话信息显示示意图。当前用户在智能手机上将编辑的文字发送出去时，会话界面900中的第二会话组件910显示出该已发送文本会话信息，进一步地，智能手机可以将该已发送文本会话信息通过网络发送至云执行服务器730，云执行服务器730接收到智能手机发送的已发送文本会话信息时，自动生成与已发送文本会话信息匹配的两条音频片段和两条视频片段。进一步地，云执行服务器730将该两条音频片段和两条视频片段发送到智能手机，智能手机在会话界面900的回复候选圈920上显示出两条音频片段和两条视频片段。

可选地，智能手机可以将已发送文本会话信息和已接收文本会话信息通过网络发送至云执行服务器730，云执行服务器730接收到智能手机发送的已发送文本会话信息和已接收文本会话信息时，可以自动生成与已发送文本会话信息和已接收文本会话信息匹配的至少一条具有网络热词属性的多模态会话信息。

步骤S270：计算机设备响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。

示例性地，请参阅图11，图11示出了一种会话信息确定交互示意图。智能手机在得到云执行服务器730发送的与已接收文本会话信息匹配的具有网络热词属性的两条音频片段和一条视频片段时，可以在会话界面1000的悬浮窗1020上显示出两条音频片段(音频片段P和音频片段Q)和一条视频片段。当用户通过手动点击了悬浮窗1020上音频片段P所在区域时，智能手机可以将该被点击的音频片段P输入到会话界面1000中。

在一些实施例中，当用户使用输入法系统编辑需要发送的文字时，输入法也可以根据编辑内容和会话界面中的至少一条文本会话信息，生成至少一条多模态会话信息。

示例性地，输入法系统可以获取会话界面中的至少一条文本会话信息，该至少一条文本会话信息可以为已发送文本会话信息和已接收文本会话信息中的至少一种。进而基于获取的会话界面中的至少一条文本会话信息，在候选区中自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，其中，该至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段。

例如，请参阅图12，图12示出了另一种会话信息确定交互示意图。输入法系统可以响应于编码输入区1120的编辑操作，获取编码输入区1120的输入文本信息，进而，基于输入文本信息和会话界面1110中的至少一条文本会话信息，自动生成与至少一条文本会话信息匹配的至少一条多模态会话信息，并在候选区1130中显示至少一条多模态会话信息.。

候选区1130可以为九宫格的形式，设置于编码输入区1120的下方，候选区1130的第一行用于显示图像类型(图片)的多模态会话信息，第二行显示音频类型(音频片段)的多模态会话信息，第三行显示视频类型(视频片段)的多模态会话信息。可选地，每行可以基于多模态会话信息与文本会话信息的匹配度，按照从左到右的排列顺序显示多模态会话信息，用户可以通过横向滑动操作，分别滑动每一行，以便选择其他的为显示出的多模态会话信息。

进一步地，响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到所述会话界面。例如，在检测到用户点击候选区1130中的一个音频片段时，输入法将该音频片段输入到会话界面1110中。可选地，请参阅图13，图13示出了又一种会话信息显示示意图。如图13所示，候选区可设置与输入界面的编辑栏下方，在显示候选区时，输入键盘可以隐藏。请参阅图14，图14示出了一种会话信息生成方法的流程图。

例如，通讯客户端720接收到其他用户发送来的聊天语句t时，可以将聊天语句t发送至云执行服务器730，云执行服务器730可以对聊天语句t进行编码，得到的文本向量

进而在多模态索引库中对该文本向量

进行向量检索，检索到多个会话向量

进一步地，在多模态资源库中匹配到每个会话向量

对应的会话信息，并将每个会话信息发送给智能手机上的通讯客户端720。通讯客户端720在接收到云执行服务器730发送的每个会话信息时，可以在会话界面的悬浮窗中显示每个会话信息，进而响应于对悬浮窗中显示的会话信息的确定操作，将用户确定的目标会话信息输入到会话界面中。

本申请实施例可以获取训练数据集以及预设多模态匹配网络，并通过训练据集对预设多模态匹配网络进行迭代训练，直至预设多模态匹配网络满足预设条件，得到训练后的多模态匹配模型。进而基于多模态匹配模型生成多模态索引库。在显示会话界面时，可以响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，并响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。如此，可以从会话界面中获取至少一条文本会话信息，并生成该至少一条文本会话信息对应的文本向量，进而基于文本向量为该至少一条文本会话信息匹配到至少一条多模态会话信息，也即为用户推荐除了表情图像之外具有网络热词属性的其他模态的会话内容，例如音频片段或视频片段，从而，在提高会话场景中会话内容多样性的同时，增加会话内容的感染力。

请参阅图15，其示出了本申请实施例提供的一种信息输入装置1200的结构框图。该信息输入装置1200包括：会话显示模块1210，用于显示会话界面，会话界面包括至少一条文本会话信息，至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种；第一响应模块1220，用于响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，其中，至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；第二响应模块1230，用于响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。

在一些实施例中，第一响应模块1220可以具体用于：自动生成至少一条文本会话信息匹配的至少一条多模态会话信息；在会话界面的悬浮窗中显示至少一条多模态会话信息。

在一些实施例中，第二响应模块1230可以具体用于：响应于对悬浮窗中显示的至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。

在一些实施例中，第一响应模块1220可以包括：向量检索单元，用于从多模态索引库中检索出至少一条文本会话信息对应的至少一个会话向量；信息匹配单元，用于从多模态资源库中匹配到每个会话向量对应的多模态会话信息。

在一些实施例中，向量检索单元可以包括：文本编码子单元，用于将至少一条文本会话信息输入至文本编码器，通过文本编码器输出至少一条文本会话信息对应的文本向量；向量匹配子单元，用于基于文本向量在多模态索引库中进行向量检索，得到与文本向量匹配的至少一个会话向量。

在一些实施例中，向量匹配子单元可以具体用于：计算出多模态索引库中每个预设向量与文本向量的向量距离；对所有向量距离进行降序排序，得到预设数量的中间向量；将向量距离满足距离阈值的中间向量作为会话向量。

在一些实施例中，向量检索单元还可以具体用于：对至少一条文本会话信息进行会话预测，得到与至少一条文本会话信息匹配的预测文本数据；对预测文本数据进行编码，得到对应的预测文本向量；基于预测文本向量在多模态索引库中进行向量检索，得到与预测文本向量匹配的会话向量。

在一些实施例中，信息输入装置1200可以包括：资源获取模块，用于获取文本资源信息和多模态资源信息，文本资源信息和多模态资源信息为基于具有网络热词属性的会话历史信息生成，多模态资源信息至少包括音频资源信息和视频资源信息中的一种；预设向量生成模块，用于将文本资源信息和多模态资源信息输入至多模态匹配模型，得到文本资源向量和文本资源向量匹配的预设向量；索引库生成模块，用于基于预设向量，根据索引结构生成多模态索引库。

在一些实施例中，信息输入装置1200可以包括：样本获取模块，用于获取训练数据集，训练数据集包括文本样本信息以及与文本样本信息匹配的多模态样本信息，多模态样本信息至少包括音频样本信息和视频样本信息中的一种；网络获取模块，用于获取预设多模态匹配网络，预设多模态匹配网络用于进行文本编码，以及至少进行音频编码或视频编码；网络训练模块，用于通过训练据集对预设多模态匹配网络进行迭代训练，直至预设多模态匹配网络满足预设条件，得到训练后的多模态匹配模型。

在一些实施例中，预设多模态匹配网络包括文本编码器和多模态编码器，网络训练模块可以具体用于：将文本样本信息输入文本编码器，得到文本训练向量；将多模态样本信息输入多模态编码器，得到多模态训练向量；计算得到文本训练向量和多模态训练向量的余弦相似度，并基于余弦相似度确定目标损失函数；根据目标损失函数对预设多模态匹配网络进行迭代训练，直至预设多模态匹配网络满足预设条件，得到训练后的多模态匹配模型。

在一些实施例中，样本获取模块可以具体用于：获取多模态交互信息，多模态交互信息为会话应用程序生成的具有上下文关系以及网络热词属性的数据，多模态交互信息包括文本交互信息和内容交互信息，内容交互信息至少包括视频交互信息和音频交互数信息；基于文本交互信息和内容交互信息生成训练样本对，训练样本对由文本样本信息和多模态样本信息组成；基于得到的多个训练样本对构建训练数据集。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请提供的方案，可以显示会话界面，会话界面包括至少一条文本会话信息，该至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种，响应于会话界面中的至少一条文本会话信息，自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，其中，该至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段，进一步地，响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。如此，可以从会话界面中获取至少一条文本会话信息，并生成该至少一条文本会话信息对应的文本向量，进而基于文本向量为该至少一条文本会话信息匹配到至少一条多模态会话信息，也即为用户推荐除了表情图像之外具有网络热词属性的其他模态的会话内容，例如音频片段或视频片段，从而，在提高会话场景中会话内容多样性的同时，增加会话内容的感染力。

请参阅图16，其示出了本申请实施例提供的另一种信息输入装置1300的结构框图。该信息输入装置1300包括：文本获取模块1310，用于获取会话界面中的至少一条文本会话信息，至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种；信息生成模块1320，用于基于获取的会话界面中的至少一条文本会话信息，在候选区中自动生成并显示与至少一条文本会话信息匹配的至少一条多模态会话信息，其中，至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；信息输入模块1330，用于响应于对至少一条多模态会话信息的确定操作，将至少一条多模态会话信息输入到会话界面。

在一些实施例中，信息生成模块1320可以具体用于：响应于编码输入区的编辑操作，获取编码输入区的输入文本信息；基于输入文本信息和会话界面中的至少一条文本会话信息，自动生成与至少一条文本会话信息匹配的至少一条多模态会话信息；在候选区中显示至少一条多模态会话信息。

如图17所示，本申请实施例还提供一种计算机设备1400，该计算机设备1400包括处理器1410、存储器1420、电源1430和输入单元1440，存储器1420存储有计算机程序指令，计算机程序指令被处理器1410调用时，可实执行上述的实施例提供的各种方法步骤。本领域技术人员可以理解，图中示出的计算机设备的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1410可以包括一个或多个处理核。处理器1410利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器1420内的指令、程序、代码集或指令集，调用存储在存储器1420内的数据，执行电池管理系统的各种功能和处理数据，以及执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体控制。可选地，处理器1410可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1410可集成中央处理器1410(CentralProcessing Unit，CPU)、图像处理器1410(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1410中，单独通过一块通信芯片进行实现。

存储器1420可以包括随机存储器1420(Random Access Memory，RAM)，也可以包括只读存储器1420(Read-Only Memory)。存储器1420图可用于存储指令、程序、代码、代码集或指令集。存储器1420可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法实施例的指令等。存储数据区还可以存储计算机设备在使用中所创建的数据(比如电话本和音视频数据)等。相应地，存储器1420还可以包括存储器控制器，以提供处理器1410对存储器1420的访问。

电源1430可以通过电源管理系统与处理器1410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1430还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

输入单元1440，该输入单元1440可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备1400还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器1410会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1420中，并由处理器1410来运行存储在存储器1420中的应用程序，从而实现前述实施例提供的各种方法步骤。

如图18所示，本申请实施例还提供一种计算机可读存储介质1500，该计算机可读存储介质1500中存储有计算机程序指令1510，计算机程序指令1510可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读存储介质(Non-Transitory Computer-Readable Storage Medium)。计算机可读存储介质1500具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种信息输入方法，其特征在于，所述方法包括：

显示会话界面，所述会话界面包括至少一条文本会话信息，所述至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种；

响应于所述会话界面中的至少一条文本会话信息，自动生成并显示与所述至少一条文本会话信息匹配的至少一条多模态会话信息，其中，所述至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；

响应于对所述至少一条多模态会话信息的确定操作，将所述至少一条多模态会话信息输入到所述会话界面。

2.根据权利要求1所述的方法，其特征在于，所述自动生成并显示与所述至少一条文本会话信息匹配的至少一条多模态会话信息，包括：

自动生成与所述至少一条文本会话信息匹配的至少一条多模态会话信息；

在所述会话界面的悬浮窗中显示所述至少一条多模态会话信息。

3.根据权利要求2所述的方法，其特征在于，所述响应于对所述至少一条多模态会话信息的确定操作，将所述至少一条多模态会话信息输入到所述会话界面，包括：

响应于对悬浮窗中显示的所述至少一条多模态会话信息的确定操作，将所述至少一条多模态会话信息输入到所述会话界面。

4.根据权利要求1或2所述的方法，其特征在于，所述自动生成与所述至少一条文本会话信息匹配的至少一条多模态会话信息，包括：

从多模态索引库中检索出所述至少一条文本会话信息对应的至少一个会话向量；

从多模态资源库中匹配到每个所述会话向量对应的多模态会话信息。

5.根据权利要求4所述的方法，其特征在于，所述从多模态索引库中检索出所述至少一条文本会话信息对应的至少一个会话向量，包括：

将所述至少一条文本会话信息输入至文本编码器，通过所述文本编码器输出所述至少一条文本会话信息对应的文本向量；

基于所述文本向量在多模态索引库中进行向量检索，得到与所述文本向量匹配的至少一个会话向量。

6.根据权利要求5所述的方法，其特征在于，所述基于所述文本向量在多模态索引库中进行向量检索，得到与所述文本向量匹配的至少一个会话向量，包括：

计算出多模态索引库中每个预设向量与所述文本向量的向量距离；

对所有所述向量距离进行降序排序，得到预设数量的中间向量；

将向量距离满足距离阈值的中间向量作为会话向量。

7.根据权利要求4所述的方法，其特征在于，所述从多模态索引库中检索出所述至少一条文本会话信息对应的至少一个会话向量，包括：

对所述至少一条文本会话信息进行会话预测，得到与所述至少一条文本会话信息匹配的预测文本数据；

对所述预测文本数据进行编码，得到对应的预测文本向量；

基于所述预测文本向量在多模态索引库中进行向量检索，得到与所述预测文本向量匹配的会话向量。

8.根据权利要求4所述的方法，其特征在于，所述多模态索引库通过如下步骤得到：

获取文本资源信息和多模态资源信息，所述文本资源信息和多模态资源信息为基于具有网络热词属性的会话历史信息生成，所述多模态资源信息至少包括音频资源信息和视频资源信息中的一种；

将所述文本资源信息和所述多模态资源信息输入至多模态匹配模型，得到与所述文本资源向量匹配的预设向量；

基于所述预设向量，根据索引结构生成多模态索引库。

9.根据权利要求8所述的方法，其特征在于，所述多模态匹配模型通过如下步骤训练得到：

获取训练数据集，所述训练数据集包括文本样本信息以及与所述文本样本信息匹配的多模态样本信息，所述多模态样本信息至少包括音频样本信息和视频样本信息中的一种；

获取预设多模态匹配网络，所述预设多模态匹配网络用于进行文本编码，以及至少进行音频编码或视频编码；

通过所述训练据集对所述预设多模态匹配网络进行迭代训练，直至所述预设多模态匹配网络满足预设条件，得到训练后的多模态匹配模型。

10.根据权利要求9所述的方法，其特征在于，所述预设多模态匹配网络包括文本编码器和所述多模态编码器，所述通过所述训练据集对所述预设多模态匹配网络进行迭代训练，直至所述预设多模态匹配网络满足预设条件，得到训练后的多模态匹配模型，包括：

将所述文本样本信息输入所述文本编码器，得到文本训练向量；

将所述多模态样本信息输入所述多模态编码器，得到多模态训练向量；

计算得到所述文本训练向量和所述多模态训练向量的余弦相似度，并基于所述余弦相似度确定目标损失函数；

根据所述目标损失函数对所述预设多模态匹配网络进行迭代训练，直至所述预设多模态匹配网络满足预设条件，得到训练后的多模态匹配模型。

11.根据权利要求9所述的方法，其特征在于，所述获取训练数据集，包括：

获取多模态交互信息，所述多模态交互信息为会话应用程序生成的具有上下文关系以及网络热词属性的数据，所述多模态交互信息包括文本交互信息和内容交互信息，所述内容交互信息至少包括视频交互信息和音频交互数信息；

基于所述文本交互信息和所述内容交互信息生成训练样本对，所述训练样本对由文本样本信息和多模态样本信息组成；

基于得到的多个所述训练样本对构建训练数据集。

12.一种信息输入方法，其特征在于，所述方法包括：

获取会话界面中的至少一条文本会话信息，所述至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种；

基于获取的所述会话界面中的至少一条文本会话信息，在候选区中自动生成并显示与所述至少一条文本会话信息匹配的至少一条多模态会话信息，其中，所述至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；

13.根据权利要求12所述的方法，其特征在于，所述基于获取的所述会话界面中的至少一条文本会话信息，在候选区中自动生成并显示与所述至少一条文本会话信息匹配的至少一条多模态会话信息，包括：

响应于编码输入区的编辑操作，获取所述编码输入区的输入文本信息；

基于所述输入文本信息和所述会话界面中的至少一条文本会话信息，自动生成与所述至少一条文本会话信息匹配的至少一条多模态会话信息；

在候选区中显示所述至少一条多模态会话信息。

14.一种信息输入装置，其特征在于，所述装置包括：

会话显示模块，用于显示会话界面，所述会话界面包括至少一条文本会话信息，所述至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种；

第一响应模块，用于响应于所述会话界面中的至少一条文本会话信息，自动生成并显示与所述至少一条文本会话信息匹配的至少一条多模态会话信息，其中，所述至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；

第二响应模块，用于响应于对所述至少一条多模态会话信息的确定操作，将所述至少一条多模态会话信息输入到所述会话界面。

15.一种信息输入装置，其特征在于，所述装置包括：

文本获取模块，用于获取会话界面中的至少一条文本会话信息，所述至少一条文本会话信息为已发送文本会话信息和已接收文本会话信息中的至少一种；

信息生成模块，用于基于获取的所述会话界面中的至少一条文本会话信息，在候选区中自动生成并显示与所述至少一条文本会话信息匹配的至少一条多模态会话信息，其中，所述至少一条多模态会话信息至少包括具有网络热词属性的音频片段或视频片段；

信息输入模块，用于响应于对所述至少一条多模态会话信息的确定操作，将所述至少一条多模态会话信息输入到所述会话界面。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1～13任一项所述的方法。

17.一种计算机设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1～13任一项所述的方法。

18.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中；计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机执行如权利要求1～13任一项所述的方法。