CN114710459B

CN114710459B - 一种聊天交互的方法、电子设备及服务器

Info

Publication number: CN114710459B
Application number: CN202011492676.9A
Authority: CN
Inventors: 姜磊
Original assignee: Petal Cloud Technology Co Ltd
Current assignee: Petal Cloud Technology Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2023-11-03
Anticipated expiration: 2040-12-16
Also published as: CN114710459A; WO2022127689A1; EP4246921A4; EP4246921A1; US20240098045A1; CN117614921A

Abstract

本申请提供了一种聊天交互的方法、电子设备及服务器，该方法包括：第一电子设备向服务器发送聊天文本的视频请求消息，所述视频请求消息用于请求至少一个目标视频片段，所述目标视频片段包括以字幕形式出现的目标对白文本，所述目标对白文本与所述聊天文本语义相同或者相近；第一电子设备根据所述服务器发送的响应消息展示所述至少一个目标视频片段；第一电子设备接收用户的确认指令，所述确认指令用于指示第一视频片段；第一电子设备向所述服务器发送视频播放消息，所述视频播放消息用于指示所述服务器向第二电子设备发送所述第一视频片段。该方法通过将用户想表达的文字信息用对白相同或相似的视频内容来代替，提升了用户的交流体验。

Description

一种聊天交互的方法、电子设备及服务器

技术领域

本申请涉及电子设备技术领域，尤其涉及一种基于视频的聊天交互的方法、电子设备及服务器。

背景技术

随着移动互联网的快速发展，各类即时通讯(instant messaging，IM)应用软件为用户提供了及时丰富的沟通体验。在进行交流时，除了传统的文字信息以外，发送方还可以发送图片、动图、语音、视频等多媒体信息介质给接收方，这些多媒体信息介质通常被保存在服务端，接收方收到多媒体信息介质在服务端存放的统一资源定位符(uniformresource locator，URL)，IM应用软件根据该URL下载实际的介质内容让接收方观看。

以发送视频内容为例，当发送方想要将一段拍摄好的视频内容分享给接收方时，发送方在IM应用软件中选择相应的视频内容并且进行发送。该视频内容首先被上传至服务端，并且被缓存在服务端的存储器中。服务端将相应的通知消息同步给接收方的IM应用软件，接收方的IM应用软件根据该通知消息解析出该视频内容存放在服务端的URL地址，并且去服务端将该URL地址所对应的视频内容下载到本地，之后由IM应用软件自带的播放器进行播放。

然而，上述视频内容分享方式多是上传或转发预先制作好的视频介质，这些视频介质在传输过程中具有基本保持不变的静态性。由于受到视频内容制作和语义无关性限制，上述视频内容通常无明显的上下文交流用途，对用户间的交流无明显促进作用，造成用户的交流体验不高。

发明内容

本申请提供一种聊天交互的方法、电子设备及服务器，该方法通过将用户想表达的文字信息用对白相同或相似的视频内容来代替，提升了用户的交流体验。

第一方面提供了一种聊天交互的方法，包括：第一电子设备向服务器发送聊天文本的视频请求消息，所述视频请求消息用于请求至少一个目标视频片段，所述目标视频片段包括以字幕形式出现的目标对白文本，所述目标对白文本与所述聊天文本语义相同或者相近；所述第一电子设备根据所述服务器发送的响应消息展示所述至少一个目标视频片段；所述第一电子设备接收用户的确认指令，所述确认指令用于指示第一视频片段，所述第一视频片段为所述至少一个目标视频片段中的一个；所述第一电子设备向所述服务器发送视频播放消息，所述视频播放消息用于指示所述服务器向第二电子设备发送所述第一视频片段。

本申请实施例通过将用户想表达的文字信息用对白相同或相似的视频内容来代替，为用户除文本外的表达增加了更多丰富的选择，也使得交流的视频具有上下文关联性，提升了用户的交流体验。同时本申请也为即时通讯的娱乐场景提供一种更加新颖有趣的互动体验。

例如，用户#1希望与用户#2通过IM应用进行交流，用户1在IM应用的输入框中输入聊天文本后IM应用为用户#1提供了基于聊天文本内容理解后匹配视频片段的选项，用户#1选择后，即可以将该聊天文本通过视频片段中的场景画面来向用户#2进行呈现，用户#2也可以用相同的方式来使用视频片段来回复用户#1。由此使得交流的视频片段具有上下文关联性，能够提升用户交流体验。

相对于传统的仅可以通过文本或语音等进行交流的聊天交互方法，本申请实施例基于文本的向量表征和高效的向量检索能力，可以实现用户意图与视频对白快速匹配能力，可以由用户来选择丰富的视频内容来表达出用户想要和对方说的意思，提供了趣味性和多样性。

在一种可能的实现方式中，所述响应消息包括所述至少一个目标视频片段中的每个所述目标视频片段的所述目标对白文本；所述第一电子设备根据所述服务器发送的响应消息展示所述至少目标一个视频片段，包括：所述第一电子设备展示所述每个所述目标视频片段的目标对白文本。

在一种可能的实现方式中，所述响应消息还包括每个所述目标视频片段所对应的预览海报链接，所述第一电子设备根据所述服务器发送的响应消息展示所述至少一个目标视频片段，包括：所述第一电子设备根据所述预览海报链接下载并且展示每个所述目标视频片段的预览海报。

在一种可能的实现方式中，所述响应消息还包括所述第一视频片段所对应的完整视频的下载地址的信息，以及所述第一视频片段在所述完整视频中的时间段位置的信息；所述第一电子设备根据所述服务器发送的响应消息展示所述至少一个目标视频片段，包括：所述第一电子设备根据所述下载地址和所述时间段位置下载并播放所述第一视频片段。

在一种可能的实现方式中，所述第一电子设备向服务器发送聊天文本的视频请求消息之前，所述方法还包括：所述第一电子设备确定用户在文本输入框中输入所述聊天文本后的预设时长内未进行其他输入操作。

在一种可能的实现方式中，所述目标视频片段包括多个，所述响应消息还包括匹配度的信息，所述第一电子设备根据所述服务器发送的响应消息展示所述至少一个视频片段，包括：所述第一电子设备根据所述匹配度以列表的形式按照匹配度由高到低的顺序展示每个所述目标视频片段。

第二方面，提供了一种聊天交互的方法，包括：服务器接收第一电子设备发送的聊天文本的视频请求消息，所述视频请求消息用于请求至少一个目标视频片段，所述目标视频片段包括以字幕形式出现的目标对白文本，所述目标对白文本与所述聊天文本语义相同或者相近；所述服务器根据所述聊天文本确定所述至少一个目标视频片段；所述服务器向所述第一电子设备发送响应消息，所述响应消息用于所述第一电子设备展示所述至少一个目标视频片段；所述服务器接收所述第一电子设备发送的视频播放消息，所述视频播放消息用于指示所述服务器向第二电子设备发送第一视频片段，所述第一视频片段为所述至少一个目标视频片段中的一个；所述服务器向所述第二电子设备发送所述第一视频片段。

在一种可能的实现方式中，所述响应消息包括所述至少一个目标视频片段中的每个所述目标视频片段的目标对白文本。

在一种可能的实现方式中，所述响应消息还包括每个所述目标视频片段所对应的预览海报链接，所述预览海报链接用于所述第一电子设备下载并且展示每个所述目标视频片段的预览海报。

在一种可能的实现方式中，所述响应消息还包括所述第一视频片段所对应的完整视频的下载地址的信息，以及所述第一视频片段在所述完整视频中的时间段位置的信息，所述下载地址和所述时间段位置用于所述第一电子设备下载并播放所述第一视频片段。

在一种可能的实现方式中，所述目标视频片段包括多个，所述响应消息还包括匹配度的信息，所述匹配度用于所述第一电子设备以列表的形式按照匹配度由高到低的顺序展示每个所述目标视频片段。

在一种可能的实现方式中，所述服务器根据所述聊天文本确定所述至少一个目标视频片段，包括：对所述聊天文本和对白文本索引库中的对白文本进行匹配，所述对白文本索引库包括所述对白文本和视频片段的对应关系；将匹配成功的对白文本所对应的视频片段确定为所述目标视频片段。

在一种可能的实现方式中，所述对白文本和视频片段的对应关系包括所述对白文本和完整视频的对应关系，以及所述对白文本在所述完整视频出现的时间段位置的对应关系；所述将匹配成功的对白文本所对应的视频片段确定为所述目标视频片段，包括：将匹配成功的对白文本所对应的完整视频的位于所述时间段位置的视频内容确定为所述目标视频片段。

在一种可能的实现方式中，所述对白文本索引库中的对白文本以对白文本向量的形式存在，所述对所述聊天文本和对白文本索引库中的对白文本进行匹配，包括：将所述聊天文本转换成聊天文本向量；计算所述聊天文本向量和所述对白文本向量的相对距离；所述将匹配成功的对白文本所对应的视频片段确定为所述目标视频片段，包括：将与所述聊天文本向量的相对距离小于预设阈值的对白文本向量所对应的视频片段确定为所述目标视频片段。本申请基于文本的向量表征和高效的向量检索能力，可以实现用户意图与视频对白快速匹配能力，提高用户的使用体验。

第三方面，提供了一种电子设备，包括：一个或多个处理器；一个或多个存储器；所述一个或多个存储器存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：向服务器发送聊天文本的视频请求消息，所述视频请求消息用于请求至少一个目标视频片段，所述目标视频片段包括以字幕形式出现的目标对白文本，所述目标对白文本与所述聊天文本语义相同或者相近；根据所述服务器发送的响应消息展示所述至少一个目标视频片段；接收用户的确认指令，所述确认指令用于指示第一视频片段，所述第一视频片段为所述至少一个目标视频片段中的一个；向所述服务器发送视频播放消息，所述视频播放消息用于指示所述服务器向第二电子设备发送所述第一视频片段。

在一种可能的实现方式中，所述响应消息包括所述至少一个目标视频片段中的每个所述目标视频片段的所述目标对白文本，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：展示所述每个所述目标视频片段的目标对白文本。

在一种可能的实现方式中，所述响应消息还包括每个所述目标视频片段所对应的预览海报链接，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：根据所述预览海报链接下载并且展示每个所述目标视频片段的预览海报。

在一种可能的实现方式中，所述响应消息还包括所述第一视频片段所对应的完整视频的下载地址的信息，以及所述第一视频片段在所述完整视频中的时间段位置的信息，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：根据所述下载地址和所述时间段位置下载并播放所述第一视频片段。

在一种可能的实现方式中，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：在向服务器发送聊天文本的视频请求消息之前，确定用户在文本输入框中输入所述聊天文本后的预设时长内未进行其他输入操作。

在一种可能的实现方式中，所述目标视频片段包括多个，所述响应消息还包括匹配度的信息，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：根据所述匹配度以列表的形式按照匹配度由高到低的顺序展示每个所述目标视频片段。

第四方面，提供了一种服务器，包括：一个或多个处理器；一个或多个存储器；所述一个或多个存储器存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述一个或多个处理器执行时，使得所述服务器执行以下步骤：接收第一电子设备发送的聊天文本的视频请求消息，所述视频请求消息用于请求至少一个目标视频片段，所述目标视频片段包括以字幕形式出现的目标对白文本，所述目标对白文本与所述聊天文本语义相同或者相近；根据所述聊天文本确定所述至少一个目标视频片段；向所述第一电子设备发送响应消息，所述响应消息用于所述第一电子设备展示所述至少一个目标视频片段；接收所述第一电子设备发送的视频播放消息，所述视频播放消息用于指示所述服务器向第二电子设备发送第一视频片段，所述第一视频片段为所述至少一个目标视频片段中的一个；向所述第二电子设备发送所述第一视频片段。

在一种可能的实现方式中，当所述指令被所述一个或多个处理器执行时，使得所述服务器执行以下步骤：对所述聊天文本和对白文本索引库中的对白文本进行匹配，所述对白文本索引库包括所述对白文本和视频片段的对应关系；将匹配成功的对白文本所对应的视频片段确定为所述目标视频片段。

在一种可能的实现方式中，所述对白文本和视频片段的对应关系包括所述对白文本和完整视频的对应关系，以及所述对白文本在所述完整视频出现的时间段位置的对应关系；当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：将匹配成功的对白文本所对应的完整视频的位于所述时间段位置的视频内容确定为所述目标视频片段。

在一种可能的实现方式中，所述对白文本索引库中的对白文本以对白文本向量的形式存在，当所述指令被所述一个或多个处理器执行时，使得所述服务器执行以下步骤：将所述聊天文本转换成聊天文本向量；计算所述聊天文本向量和所述对白文本向量的相对距离；将与所述聊天文本向量的相对距离小于预设阈值的对白文本向量所对应的视频片段确定为所述目标视频片段。

第五方面提供了一种电子设备上的图形用户界面，该电子设备具有显示屏、存储器、以及一个或多个处理器，例如该电子设备包括第一方面中的第一电子设备或第二电子设备，该一个或多个处理器用于执行存储在该存储器中的一个或多个计算机程序，该图形用户界面包括第一电子设备或第二电子设备执行上述任一方面任一项可能的聊天交互的方法中显示的图形用户界面。

第六方面提供了一种装置，该装置包含在第一电子设备或第二电子设备中，该装置具有实现上述第一方面及上述第一方面的可能实现方式中第一电子设备或第二电子设备行为的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如，显示模块或单元、检测模块或单元、处理模块或单元等。

第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述任一方面任一项可能的聊天交互的方法。

第八方面提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述任一方面任一项可能的聊天交互的方法。

附图说明

图1是现有技术中通过IM应用软件进行聊天交互的系统示意图。

图2是现有技术中通过IM应用软件发送视频的流程图。

图3是本申请实施例提供的通过IM应用软件进行聊天交互的系统架构图。

图4是本申请实施例提供的电子设备的一例的结构示意图。

图5是图3所示的系统架构中各单元的软件结构框图。

图6是本申请实施例提供的聊天交互的方法的一例的流程图。

图7是本申请实施例提供的IM应用软件与用户的交互界面图。

图8是本申请实施例提供的聊天交互的方法的另一例的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

为方便对本申请所提供的实施例的理解，下面首先结合附图现有技术中的聊天交互方法进行介绍。图1是现有技术中通过IM应用软件进行聊天交互的系统示意图。

如图1所示，该系统包括第一终端10、第二终端20以及应用服务器30。第一终端10和第二终端20通过应用服务器30通信连接。可选地，第一终端10、第二终端20和应用服务器30之间可以是有线连接，也可以是无线连接。

随着移动互联网的快速发展，各类即时通讯(instant messaging，IM)应用软件为用户提供了及时丰富的沟通体验。第一终端10和第二终端20可以分别安装有相同的IM应用软件，应用服务器30能够为该IM应用软件提供应用服务，不同用户可以通过该IM应用软件进行聊天交互。

在一种可能的实现方式中，第一终端10和第二终端20也可以分别安装不同的IM应用软件，并且可以通过不同的IM应用软件进行聊天交互。

例如，如图1所示，用户(下文记作发送者)可以通过第一终端10上的IM应用软件输入聊天消息“一起去爬山吗？”，并且通过应用服务器30发送到第二终端20。另一用户(下文记作接收者)通过第二终端20上的IM应用软件读取到该消息，并且回复“好啊，不见不散”给发送者，发送者可以通过IM应用软件的显示界面读取到该消息。

此外，发送者和接收者之间还可以通过该IM应用软件发送表情、图片、动图、语音以及视频等多媒体信息介质，以丰富聊天体验。

通常，这些多媒体信息介质会被保存在应用服务器30的存储器内，在一定的期限内(例如，1周或15天)，接收方可以通过IM应用软件从应用服务器30处下载上述多媒体信息介质进行观看。而超过这个期限，服务器30可以将该多媒体信息介质从存储器中删除以节约存储空间，此时接收方无法通过IM应用软件从应用服务器30处下载到该多媒体信息介质。

下面以发送视频内容为例进行说明。图2是现有技术中通过IM应用软件发送视频的流程图。

如图1、2所示，发送方可以通过第一终端10上的IM应用软件将一段视频内容发送给接收方。该视频内容可以是当前拍摄的(例如直接通过IM应用软件进行拍摄)，也可以是从相册或本地存储器中选择的，也可以对别人分享的视频进行转发。

该视频内容首先被上传至应用服务器30，应用服务器30对该视频内容进行缓存。同时，应用服务器30将相应的通知消息同步推送至第二终端20，该通知消息中携带有存放该视频内容的统一资源定位符(uniform resource locator，URL)地址。

第二终端20上的IM应用软件根据该通知消息解析出该视频内容的URL地址，并且去应用服务器30将该URL地址所对应的视频内容下载到本地，之后由IM应用软件自带的播放器进行播放。

然而，上述视频内容分享方式多是上传或转发预先制作好的视频介质，这些视频介质在传输过程中具有基本保持不变的静态性。由于受到视频内容制作和语义无关性限制，上述视频内容的发送主要是一次性的，通常无明显的上下文交流用途，对用户间的交流无明显促进作用，造成用户的交流体验不高。

有鉴于此，本申请实施例提供了一种基于视频的聊天交互的方法，该方法通过将用户想表达的文字信息用对白相同或相似的视频内容来代替，为用户除文本外的表达增加了更多丰富的选择，也使得交流的视频具有上下文关联性，提升了用户的交流体验。

本申请实施例提供的聊天交互方法可以应用于图3所提供的聊天交互系统中。为方便对本申请实施例所提供的聊天交互方法进行介绍，下面将首先介绍该聊天交互系统。

图3是本申请实施例提供的通过IM应用软件进行聊天交互的系统架构图。如图3所示，该聊天交互系统包括第一电子设备、第二电子设备以及服务器。第一电子设备和第二电子设备上安装有IM应用软件，第一电子设备、第二电子设备位于端侧，可以通过无线网络分别与位于云测的服务器通信连接，该服务器为第一电子设备、第二电子设备提供IM应用服务。

不同的用户可以通过第一电子设备、第二电子设备上安装的IM应用进行聊天交互，例如发送聊天文本、语音、图片以及视频等内容。

其中，第一电子设备和第二电子设备可以为智能手机、平板电脑、笔记本电脑、智能手表等任意具有通信功能的电子设备。第一电子设备和第二电子设备的类型可以相同，也可以不同，本申请对此不做限定。

例如，第一电子设备和第二电子设备可以均为智能手机。

再例如，第一电子设备和第二电子设备中的一者可以为智能手机，另一者可以为平板电脑。

一种可能的情况中，第一电子设备和第二电子设备可以具有如图4所示的部分或者全部的硬件结构。

应理解，第一电子设备和第二电子设备可以被统一称为“电子设备”，在介绍本申请实施例提供的聊天交互方法之前，先介绍第一电子设备、第二电子设备可能的硬件结构和软件结构。

图4是本申请实施例提供的电子设备的一例的结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，位置传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。I2S接口可以用于音频通信。PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

在本申请实施例中，上述无线通信模块160连接基站之后，信号强度可以通过手机显示屏上的信号标识进行显示。例如，用户的手机界面上的信号标识在满格情况下显示为5格，随着信号逐渐变差，可以显示为4格、3格、2格、1格等。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLED，Micro-OLED，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。陀螺仪传感器180B可以用于确定电子设备100的运动姿态。气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。磁传感器180D包括霍尔传感器。加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。

在本申请实施例中，位置传导传感器180M可以获取电子设备的位置信息，并转换成可用输出信号。例如，对于手机来说，位置传感器180M可以全球定位系统(globalpositioning system，GPS)传感器，可以确定电子设备的经纬度坐标等，本申请实施例对此不作限定。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

在本申请实施例中，对于便携式设备，例如智能手表，用户可以通过按压机械按键执行快捷操作，例如开启智能手表的某个功能等。

马达191可以产生震动提示。马达191可以用于来电震动提示，也可以用于触摸震动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的震动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的震动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的震动反馈效果。触摸震动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。

应理解，第一电子设备、第二电子设备作为电子设备，可以包括以上介绍的全部硬件结构，或者包括以上的部分硬件结构，又或者，具有更多的以上没有列举的其他硬件结构，本申请实施例对此不作限定。

还应理解，第一电子设备、第二电子设备作为电子设备，可以采用分层架构，鸿蒙系统(Harmony OS)架构、事件驱动架构，微核架构，微服务架构，或云架构等软件系统。

上述介绍了第一电子设备、第二电子设备可能具有的硬件结构，下面将以第一电子设备、第二电子设备具有分层架构的系统为例说明可能具有的软件结构。

图5是图3所示的系统架构中各单元的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将系统分为四层，从上至下分别为应用程序层，应用程序框架层，内核层和网络传输层等。

应用程序层可以包括一系列应用程序包。

在本申请实施例中，第一电子设备、第二电子设备可以均为智能手机，并且具有相同的软件结构。下面以第一电子设备的软件结构为例进行说明。

如图5所示，第一电子设备的应用程序层的应用程序包可以包括音乐、图库、设置、运动健康、蓝牙、WLAN、IM等应用程序(application，APP)。例如，IM应用可以在第一电子设备的显示界面显示相关的图标以及界面，并且通过服务器向第二电子设备发送聊天消息。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层可以包括一些预先定义的函数。

如图5所示，第一电子设备的应用程序框架层可以包括数据授权管理模块、通信管理模块、信号强度管理模块、信号强度记录模块、视图系统、通知管理器等。

其中，数据授权管理模块可以用于管理第一电子设备可以被服务器等访问的数据权限。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于向用户传达告知类型的消息，该消息可以短暂停留后自动消失，无需用户交互。比如通过通知管理器告知用户下载完成，进行相应的消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在第一电子设备的状态栏显示提示文本信息，或者由第一电子设备发出提示音，或者进行震动，指示灯的闪烁等。

内核层是硬件和软件之间的层。

如图5所示，第一电子设备的内核层至少包含显示驱动，基带芯片驱动，无线传输驱动，传感器驱动以及任务调度模块等。

网络传输层可以用于不同设备之间的通信、数据传输等，例如蓝牙模块，通过在第一电子设备和第二电子设备之间建立蓝牙通道，通过蓝牙通道传输数据或消息、指令等，此处不再赘述。

服务器至少可以包括通信模块和数据存储模块，其中通信模块用于实现和第一电子设备、第二电子设备之间的通信，数据存储模块可以用于第一电子设备和第二电子设备上传的数据等，例如，第一电子设备可以将视频内容通过无线通信网络上传到服务器，服务器的数据存储模块可以保存该视频内容，以供第二电子设备进行下载。

以上结合本申请实施例的实现过程，介绍了第一电子设备、第二电子设备、服务器可能包括的功能模块，应理解，第一电子设备、第二电子设备、服务器可能包括比如图5中示出的更多或者更少的功能模块，本申请实施例对此不作限定。

下面结合附图3对本申请实施例提供的服务器作进一步详细介绍。如图3所示，在本申请实施例中，服务器包括相互连接并且协调配合工作的视频平台、业务平台和智能处理平台。下面对上述各个平台实现的功能分别进行介绍。

(1)视频平台

视频平台存储有海量的视频文件，每个视频文件均包括与画面相互配套的字幕(subtitles of motion picture)。该视频文件例如可以是电影、电视剧、娱乐视频、综艺视频、动画片以及纪录片等内容。

在这里，字幕是指以文字形式显示电视、电影、舞台作品中的对话等非影像内容，也泛指影视作品后期加工的文字。在电影银幕或电视机荧光屏下方出现的解说文字以及种种文字，如影片的片名、演职员表、唱词、对白、说明词以有人物介绍、地名和年代等都称为字幕。影视作品的对话字幕，一般出现在屏幕下方，而戏剧作品的字幕，则可能显示于舞台两旁或上方。在本申请实施例中，所涉及到的字幕内容主要为对白(也被称作台词)。

在这里，视频文件的字幕可以是视频的内置字幕，也可以是外挂字幕，本申请对此不做限定。

例如，该外挂字幕可以是文本格式(subRip text，SRT)字幕文件。此外，也可以是smi、ssa，lrc等文本格式的字幕文件，本申请对此不作限定。

该字幕文本可以是中文，也可以是英文、俄文、日文、法文、德文等其他任意语种的文本，本申请对此不做限定。

字幕将对白以时间戳的形式进行记录，便于播放器在指点时间点到时在播放器界面显示对应的文本。而对白刚出现或者即将出现时的时间戳(下文记作开始时间戳)和台词消失时的时间戳(下文记作结束时间戳)之间构成的时间段为该对白在对应的视频内容中的时间段位置。

提取视频文件位于开始时间戳和结束时间戳之间的视频内容可以形成视频片段，此时，被提取的视频文件可以被称为完整视频。容易理解的，每个视频文件通常有多句对白，该完整视频可以被提取多个视频片段，反过来，通过将该多个视频片段进行拼接能够形成该完整视频。

该海量的视频文件可以按照索引的方式被存储于视频平台的存储器内，每个视频文件被分配一个唯一的视频标识(Identity，ID)，通过该视频ID能够索引到该视频文件的存储地址(或者播放地址)。

在一种可能的实现方式中，视频平台还存储有视频文件对应的宣传海报，通过该视频ID还能够索引到该视频文件的宣传海报链接(即宣传海报的下载地址)。

视频平台配置有用于提供对外服务的服务化接口，合法请求者(例如下文即将介绍的业务平台)可以通过该服务化接口同时获取视频文件的视频ID、播放地址以及字幕文件等相关元数据信息。

合法请求者还可以根据视频文件的视频ID和/或播放地址通过该服务化接口将该视频文件从云侧下载到端侧的IM客户端(例如第二电子设备)。

在本申请实施例中，合法请求者还可以根据播放地址以及指定时间片段下载包含特定对白文本的视频片段。具体地，播放地址所存储的视频文件的指定时间片段的视频内容为合法请求者想下载的视频片段，可以根据播放地址以及指定时间片段提取该视频片段，以供位于端侧的合法请求者(例如第一和/或第二电子设备)进行下载。其中，基于播放地址和指定时间片段提供媒体流(即视频片段)属于视频平台的基础能力，在现有方案中被广泛应用并且充分公开，本申请在此不多赘述。

(2)智能处理平台

智能处理平台主要包括两个功能，一是进行预处理，建立对白文本索引库。另一功能是对输入的聊天文本和对白文本索引库中的对白文本进行匹配。

该对白文本索引库包括对白文本和包含该对白文本的视频片段的映射关系。在本申请实施例中，考虑到计算量的问题，可能并不会将每个视频文件按照对白文本直接分割成多个视频片段。因此，本申请实施例提供的对白文本索引库可以包括对白文本和视频文件(也可以被称为完整视频)的对应关系，以及包括该对白文本和其在该完整视频出现的时间段位置的对应关系。

也就是说，智能处理平台对外提供两个服务接口，其中一个为创建对白索引接口。该创建对白索引接口请求为对白文本，输出为该对白文本所对应的视频文件(视频ID)和该对白文本在视频文件中的时间段位置。

对于内置字幕的视频文件，可以从该视频文件中提取各句对白文本。而视频文件的字幕也可能是外挂字幕，此时可以直接从对应的外挂字幕文件(例如SRT文件)中提取相应的对白文本。预提取的对白文本可以供上述创建对白索引接口进行使用。

智能处理平台可以通过训练好的人工智能(artificial intelligence，AI)模型来实现上述功能，因此，一些情况下，智能处理平台也可以被称为AI平台。在下文中，为简化表述，将智能处理平台称为AI平台。

AI平台内部实现的原理为使用自然处理语言(natural language process，NLP)技术，自然语言语义理解模型提供将一句话(例如一句对白文本)编码成为一个固定长度的向量的能力。建立以对白文本向量为索引，而索引的结果为该对白文本所对应的视频ID以及该对白文本在视频文件中的时间段位置。

也就是说，在本申请实施例中，AI平台首先将对白文本转换成对白文本向量，并且建立对白文本向量与视频片段的映射关系。换句话说，对白文本索引库中的对白文本以文本向量的形式存在。

AI平台的另一功能是对合法请求者输入的聊天文本和对白文本索引库中的对白文本进行匹配(即搜索)。匹配成功的对白文本(也可以被称为目标对白文本)和该聊天文本的语义相同或者相近，此时可以进一步将该目标对白文本所对应的视频片段称为目标视频片段。

也就是说，AI平台的另一个对外服务接口是搜索对白接口，AI平台收到该接口请求后，仍然使用自然语言语义理解模型将用户上传的聊天文本编码成为文本向量，然后可以基于向量索引库通过计算欧氏距离来实现高效的文本向量搜索，可在秒级返回基于文本向量搜索出的语义最接近的对白文本，进而可以根据对白文本索引库确定相对应的视频ID以及时间段位置，即确定与该聊天文本相对应的目标视频片段。

在这里，欧氏距离也被称为欧几里得度量(euclidean metric)，是一个通常采用的距离定义，指在多维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。在本申请实施例中，欧氏距离越小，说明聊天文本和对白文本的语义越接近。

具体地，AI平台可以首先使用自然语言语义理解模型将用户上传的聊天文本转换成为聊天文本向量，之后计算聊天文本向量和对白文本向量的相对距离(即欧氏距离)，将与聊天文本向量的相对距离小于预设阈值的对白文本向量所对应的对白文本确定为目标对白文本，将该目标对白文本相对应的视频片段确定为目标视频片段。在这里，该预设阈值可以根据经验值获得，例如根据大数据修正后获得。

容易理解的，聊天文本向量和对白文本向量的相对距离越小，则说明聊天文本和对白文本的匹配度越高，即语义越接近。例如，当二者的距离为0时，说明聊天文本和对白文本完全匹配，此时聊天文本和对白文本的语义相同。

(3)业务平台

业务平台的主要功能是从视频平台处获取视频文件对应的字幕文件，并且对字幕文件进行解析，将字幕文件中的每句对白提取出来，并且调用AI平台的创建对白索引接口，创建每句对白文本的索引并且生成该对白文本索引库。

具体地，业务平台可以周期性地向视频平台请求下载海量视频对应的字幕文件，因片库基数较大，故同步时可以采用多种过滤条件，分批下载的策略进行。对于内置字幕的视频文件，业务平台可以从该视频文件中提取并下载字幕文件。而对于外挂字幕的视频文件，此时可以直接下载该外挂字幕。

一旦外挂字幕下载好之后，可以按照字幕文件的格式进行对白提取。例如，对于SRT格式的字幕文件，可以按照SRT的文件格式规则进行解析，将SRT文件中提取出的每句对白文本循环调用AI平台接口，将每句对白都录入到AI平台的对白文本索引库中。

当有用户的聊天文本请求上来时，业务平台则调用AI平台的搜索对白接口确定与该聊天文本语义最接近的对白文本，以及该对白文本所对应的视频ID，之后根据视频ID向视频平台查询播放地址、视频海报链接等相关元数据信息。

最后，业务平台将目标对白文本、播放地址、时间段位置信息以及视频海报链接等内容返回给IM客户端。IM客户端可以根据上述信息下载并且展示匹配成功的目标视频片段给用户。

例如，IM客户端可以在显示屏上向用户展示目标视频片段对应的目标对白文本，待用户确认目标对白文本能够准确表达自己的心声(意思)之后，可以再下载该目标视频片段进行预览以作进一步确认。

再例如，也可以直接根据播放地址和时间段位置信息下载该目标视频片段进行播放预览。

再例如，可以根据该视频海报链接下载并展示目标视频片段的海报，海报具有宣传作用，能够体现目标视频片段的基本内容，待用户初步确认该海报对应的目标视频片段可能表达自己的心声之后，可以再进一步下载该目标视频片段进行预览确认。

前述内容介绍了服务器的三个平台的各自功能，上述三个平台能够为IM客户端提供应用服务。下面继续介绍IM客户端如何与该服务器进行信息交互，以实现上述应用服务。

IM客户端(例如图3中的第一电子设备)在用户输入一句聊天文本后，判断闲置超过预设时长如100ms后(即在该时间段内用户没有输入其他的操作指令)，携带这句聊天文本向业务平台发起查询视频请求，业务平台向IM客户端返回响应消息，该响应消息中包括查询到的目标视频片段的列表。IM客户端可以根据该响应消息对目标视频片段进行展示，例如展示目标视频片段的视频名称(即目标视频片段所对应的完整视频的名称)、海报、对白文本或者该目标视频片段的内容等中的至少一项。

在一种可能的实现方式中，用户可以手动打开IM应用的视频聊天模式，在用户输入一句聊天文本之后，无需等待该预设时长，而直接向业务平台发起查询视频请求。

在另一种可能的实现方式中，在用户输入一句聊天文本之后，可以通过触摸屏输入相关的控制指令(例如双击或点击特定虚拟按钮)，在接收到该指令以后，IM客户端向业务平台发起查询视频请求。

在另一种可能的实现方式中，用户可以通过IM应用软件输入一段语音，此时IM应用软件可以首先对该语音进行识别，将识别成聊天文本，之后根据该聊天文本向业务平台发起查询视频请求。

业务平台向IM客户端返回匹配结果，如果查询到的目标视频片段大于或者等于1个，IM客户端则解析其中的响应消息，将目标视频片段的海报、播放地址和对白文本对应的时间段位置信息等提取出来，以列表的形式呈现给用户选择。

在一种可能的实现方式中，IM客户端可以先展示每个目标视频片段的对白文本和/或海报，在确定用户需要预览该目标视频片段以后，可以通过播放地址和对白文本对应的时间段位置信息从视频平台下载该目标视频片段的内容。

在另一种可能的实现方式中，该响应消息中还包括视频名称(即目标视频片段所对应的完整视频的名称)，此时IM客户端还可以将该视频名称展示给用户。

IM客户端以列表的形式将多个目标视频片段呈现给用户进行选择，可选地，IM客户端可以最多显示3条记录，并且将匹配度最高的视频排在更靠前的位置，此时，该响应消息中还可以包括该多个目标视频片段与聊天文本的匹配度的信息。

例如，如图3所示，响应消息中共携带3个目标视频片段，分别为电影#1、电影#2和电影#3，并且匹配度分别为100％、90％、85％，则可以按照从左往右的顺序在显示屏上展示上述三个视频。

在一种可能的实现方式中，如果查询结果为空(即没有匹配成功的视频片段)，则什么也不显示，用户此时可以直接发送文本。

在一种可能的实现方式中，除了用聊天文本匹配视频以外，还可以匹配图片、表情等内容，此时，IM客户端可交由用户自行配置聊天文本匹配视频或图片、表情等策略的优先级。

用户在该视频列表中可以选择一个目标视频片段进行预览，确认该目标视频片段播放的内容可以表达此时的心声时，即可点击发送，此时聊天文本被该目标视频片段所取代。

接收方IM客户端(例如图3中的第二电子设备)在收到业务平台同步的消息时，解析出其中包含的视频播放地址和时间段位置信息，下载并启动本地播放器播放该目标视频片段，可实现从指定位置开始播放发送方选择的那个视频片段，自动播放完之后停止播放，可以手动点击重复播放。

可选地，接收方用户可以通过双击该目标视频片段等指令下载视频平台配套的视频客户端进行对应视频的完整观看。

下面结合图3中的一个具体示例对本申请实施例提供的聊天交互的方法作进一步介绍。如图3所示，本申请实施例提供的聊天交互的方法包括：

步骤310，发送方通过第一电子设备上安装的IM应用软件输入聊天文本，以触发对白文本搜索流程。例如，用户可以在输入框中输入“晚上一起吃饭”这一聊天文本，在确认用户在预设时长内没有新的指令输入的情况下，触发对白文本搜索流程。

步骤320，第一电子设备向位于云测的服务器的业务平台发送视频请求消息，该消息中携带有该聊天文本，以请求与该聊天文本相互匹配的目标视频片段。

步骤330，服务器的业务平台调用AI平台的对白搜索接口。此时，业务平台将聊天文本(例如“晚上一起吃饭”)发送给AI平台。

步骤340，AI平台通过自然语言语义理解模型将聊天文本转换成聊天文本向量。

步骤350，AI平台通过检索引擎检索对白文本索引库中与该聊天文本向量相似(即相互匹配)的对白文本向量，将与聊天文本向量的相对距离小于预设阈值的对白文本向量所对应的对白文本确定为目标对白文本，将该目标对白文本相对应的视频片段确定为目标视频片段。

AI平台将目标对白文本所对应的视频ID以及该目标对白文本在视频文件中的时间段位置信息返回给业务平台。

步骤360，业务平台根据视频ID向视频平台查询视频的播放地址、视频海报链接等相关元数据信息。之后，业务平台向第一电子设备返回响应消息，该响应消息中包括查询到的目标视频片段的列表。第一电子设备可以根据该响应消息对目标视频片段进行展示，例如展示目标视频片段的视频名称(即目标视频片段所对应的完整视频的名称)、海报、对白文本等中的至少一项。

例如，第一电子设备可以在显示屏上向用户展示目标视频片段的名称(电影#1、电影#2和电影#3)和宣传海报。第一电子设备在接收到用户的下载指令(例如点击某一海报)后，根据该视频的播放地址和时间段位置下载并播放该视频片段的内容。

在一种可能的实现方式中，第一电子设备也可以自动下载视频列表中最靠前的一个视频的内容(即匹配度最高，例如图3中的电影#1)，以方便用户进行预览。

用户在确认多个目标视频片段中的某一个(下文记作第一视频片段)播放的内容可以表达此时的心声时，即可点击发送，第一电子设备在接收到用户的确认指令以后，第一电子设备向服务器的业务平台发送视频播放消息，指示服务器向第二电子设备发送第一视频片段。

步骤370，服务器的业务平台向第二电子设备发送视频同步消息，该视频同步消息携带有第一视频片段的下载地址和时间段位置信息。

步骤380中，第二电子设备根据第一视频片段的下载地址和时间段位置信息从服务器的视频平台下载并播放该第一视频片段，如图3所示，该第一视频片段包括“晚上一起吃饭”的对白文本。

相对于传统的仅可以通过文本或语音等进行交流的聊天交互方法，本申请实施例基于文本的向量的表征和高效的检索能力，可以实现用户意图与视频对白快速匹配能力，可以由用户来选择丰富的视频内容来表达出用户想要和对方说的意思，提供了趣味性和多样性。

下面结合具体实施例对本申请实施例提供的基于视频的聊天交互的方法作进一步介绍。图6是本申请实施例提供的聊天交互的方法600的流程图，如图6所示，方法600包括：

步骤601，业务平台根据与视频平台的约定，周期性向视频平台发起获取视频元数据请求，该视频元数据请求用于请求视频文件的字幕文件等信息。视频平台收到该请求后，从本地数据库中查询出面向对白搜索场景开放的视频元数据记录，如视频ID，视频标题，视频长度，视频海报链接，视频字幕文件等基础数据，将这些基础数据返回给业务平台。对于初始化之后的元数据请求，视频平台可以仅将当前新增的视频文件的视频字幕文件等基础数据返回给业务平台。

步骤602，业务平台收到视频元数据列表后，将相关的基础数据进行存储，同时将SRT字幕文件进行下载，并按照SRT字幕格式解析出其中每句的对白文本。

步骤603、业务平台可以根据该每句对白文本循环调用AI平台的创建对白索引接口。以将每句对白文本都录入到AI平台的对白文本索引库中。

业务平台在向AI平台发起创建对白索引请求时携带每句对白文本，以及该对白所对应的对白文本的时间段位置，视频ID等信息，以供AI平台建立对白文本和视频ID、对白文本的时间段位置的对应索引关系。

进一步地，AI平台可以首先将对白文本转换成对白文本向量，之后建立对白文本向量与该对白文本所对应的视频ID以及该对白文本在视频文件中的时间段位置的索引关系。

步骤604，AI平台将每一句的对白文本向量与视频ID以及时间段位置的索引关系存储区来，以建立对白文本索引库。根据前述内容可知，在对白文本索引库，对白文本以文本向量的形式存在。

具体地，AI平台收到创建对白索引请求后，将每句对白文本进行格式化，然后基于自然语言语义理解模型进行编码，将对白文本生成高维向量。

文本向量生成以后，将该文本向量存储到AI平台的对白文本索引库中，与该对白文本向量所关联的同步存储的基础元数据信息有：对白文本所对应的视频ID、对白文本时间段位置、视频名称、视频海报链接等信息。并向业务平台返回对白索引创建成功的响应。

步骤605，当用户#1在第一电子设备上的IM应用中输入聊天文本时，在将该聊天文本发送给用户#2所属的第二电子设备之前，第一电子设备会判断当前用户是否闲置超过预设时长(例如100ms)，超过时则触发视频匹配流程，第一电子设备会将该聊天文本发送到业务平台的对白匹配接口上。同时等待业务平台的响应消息。

在一种可能的实现方式中，用户#1可以在第一电子设备上的IM应用中输入语音，第一电子设备可以根据自动语音识别(automatic speech recognition，ASR)技术将用户输入的语音识别为聊天文本，之后在进行相应的视频匹配流程。

步骤606，业务平台收到第一电子设备发来的对白匹配接口中的聊天文本，会向AI平台的搜索对白接口发送请求消息，请求消息中携带有该聊天文本。

步骤607，AI平台根据该聊天文本进行对白文本匹配。

具体地，AI平台收到业务平台发送来的搜索对白接口，将其中的聊天文本解析出来后，使用自然语言语义理解模型进行编码成向量化表示，生成高维的聊天文本向量，然后对该聊天文本向量和对白文本索引库中的所有对白文本向量进行匹配，搜索出与用户#1表达的聊天文本语义最相近的对白文本向量，同时关联搜索出对白文本向量所对应的视频ID，时间段位置，视频名称，视频海报链接等数据。

步骤608，AI平台将对白文本向量，以及该对白文本向量所对应的视频ID，时间段位置，视频名称，视频海报链接等数据打包通过响应消息返回给业务平台。即，AI平台将匹配成功的目标视频片段发送给业务平台。

步骤609，业务平台收到该响应消息后，解析出视频ID，根据该视频ID向视频平台请求真实的视频播放地址。

步骤610，业务平台将视频名称，视频海报链接，视频播放地址和该对白在视频中的时间段位置等数据组装成视频列表，以对白匹配接口响应消息的形式返回给第一电子设备。

步骤611，第一电子设备收到该响应消息后，弹出对话框，中间有若干个视频列表可供用户#1预览和选择，预览的视频片段应该与用户#1想发送的聊天文本或者说的话(语音)是语义最接近的对白表述。用户选择到满意的视频片段后点击发送。

步骤612，第一电子设备向业务平台发送视频播放消息，该视频播放消息用于指示业务平台向第二电子设备发送被选中的视频片段(即第一视频片段)。

步骤613，业务平台向第二电子设备发送视频同步消息，发送的消息中包含了视频名称，视频海报链接，视频播放地址和该对白在视频中的时间段。

步骤614，基于IM应用消息推送和拉取的默认流程，第二电子设备收到这条通知消息后，在交互窗口中弹出播放器窗口，创建播放器实例，将播放地址和时间段传递到播放器中，播放器根据指定时间段位置来下载该第一视频片段进行视频流的解码和实时渲染。用户#2看到的视频画面即是用户#1希望表达的意思，只是通过视频中的对白来呈现。

下面以一个具体的实际案例来说明本申请实施例提供的聊天交互的方法。

场景为用户#1希望与用户#2基于视频内容来进行聊天，聊天的内容是用户#1向用户#2表达“一起去爬山吗”的邀请。

1、业务平台周期性向视频平台发起获取视频元数据请求，这些视频数据是系统正常运行的前提。

2、视频平台收到请求后，从本地数据库中查询出面向台词搜索场景开放的视频元数据记录，如视频唯一ID，视频标题，视频长度，视频海报链接，视频字幕文件等基础数据，将这些记录列表返回给业务平台。其中有两部影视作品“电影#1”，“电视剧#1”，分别包含了“一起去爬山吗”，“一起去看海吧”这两句台词。

3、业务平台从视频平台搜索到若干元数据列表，包含“电影#1”，“电视剧#1”的基础数据进行存储，同时将两部内容相关的SRT字幕文件进行下载，可以解析出对白文本中两句话对应的时间段位置为：

电影#1SRT字幕文件节选

00:08:20,422-->00:08:22,794

一起去爬山吗

电视#1SRT字幕文件节选

00:13:11,324-->00:13:13,194

一起去看海吧

向AI平台发起创建对白索引请求时携带每句对白文本，如“一起去爬山吗”，以及该对白所对应的视频字幕时间段00:08:20,422-->00:08:22,794，视频唯一ID，视频名称，视频海报链接等基础信息。

4、AI平台收到创建对白索引请求时，将每句对白文本进行格式化，然后基于自然语言语义理解模型进行编码，其中两句对白“一起去爬山吗”，“一起去看海吧”生成两个高维向量表示。

将这些向量存储到AI平台的对白文本索引库中，与该向量所关联的同步存储的基础元数据信息有：对白所对应的视频字幕时间段00:08:20,422-->00:08:22,794，视频唯一ID，视频名称，视频海报链接等。并向业务平台返回对白索引创建成功的响应。至此步为止，系统的前期准备工作已经完成。

5、用户#1在第一电子设备中输入文本“一起去爬山吗”时，第一电子设备会将文本发送到业务平台的对白匹配接口上。

6、业务平台收到第一电子设备发来的对白匹配接口中的文本“一起去爬山吗”，会向AI平台的搜索对白接口发送请求，该请求中携带该文本。

7、AI平台收到业务平台发送来的搜索对白接口，将其中的文本“一起去爬山吗”解析出来后，使用自然语言语义理解模型进行编码成向量化表示，生成高维的向量表示，然后对该向量和索引库中的所有向量进行匹配，搜索出与用户表达文本最相近的台词向量表示，在本例中“一起去爬山吗”明显置信度更高，会排在前面。同时也会匹配出一些相似的句式或表达，如，会排在后面也返回给用户进行更多选择。将所对应的视频字幕时间段00:13:11,324-->00:13:13,194，视频唯一ID，视频名称，视频海报链接等数据，并将这些消息打包通过响应消息返回给业务平台。

8、业务平台收到响应消息后，解析出视频唯一ID，根据该ID向视频平台请求真实的视频播放地址。例如：

http://video-cn.bankcdn.cn/P_VT/video_cutover/AA/v3/349EB5E23516885312/277018.mpd。

9、业务平台将视频名称，视频海报链接，视频播放地址和该对白在视频中的时间段等数据组装，以对白匹配接口响应消息的形式返回给第一电子设备。

10、第一电子设备收到响应消息后，会自动弹出对话框，中间有包含“电影#1”和“电视剧#1”的视频列表可供用户预览和选择，用户预览后选择“电影#1”，点击发送。

11、发送的消息中包含了视频名称，视频海报链接，视频播放地址和对白时间段00:13:11,324-->00:13:13,194，基于IM消息推送和拉取的默认流程，用户#2的第二电子设备收到了这条通知消息后，在交互窗口中弹出播放器窗口，创建播放器实例，将前述播放地址和时间段传递到播放器中，播放器根据指定时间段位置来下载分片进行视频流的解码和实时渲染。用户#2看到的视频画面即是用户#1希望表达的意思，只是通过视频中的对白来呈现。

图7是本申请实施例提供的IM应用软件与用户的交互界面图。如图7中的(a)所示，用户#1希望对用户#2发起“一起去爬山吗”的邀约，第一电子设备上的IM应用提供给用户#1视频内容对白的增强能力，根据聊天文本搜索出最相似的台词对白，将该台词对白所属的视频片段通过弹出窗口显示给用户#1来进行选择，用户#1在预览了服务器提供的视频片段后，选择语义最接近的一个视频点击发送。用户#2的第二电子设备可以收到一个播放地址消息，如图7中的(b)所示，可以通过第二电子设备上安装的IM应用直接播放由用户#1选择的“一起去爬山吗”这个视频片段。

相对于传统的聊天交互方法，本申请实施例通过与用户想表达意图高度吻合的视频内容对白来代替用户之间希望交流的文本内容，提供了更丰富的交流素材和有趣的视听体验。

图8是本申请实施例提供的聊天交互的方法800的流程图，如图8所示，方法800包括：

步骤810，第一电子设备向服务器发送聊天文本的视频请求消息，所述视频请求消息用于请求至少一个目标视频片段，所述目标视频片段包括以字幕形式出现的目标对白文本，所述目标对白文本与所述聊天文本语义相同或者相近。

步骤820，所述服务器根据所述聊天文本确定所述至少一个目标视频片段。

步骤830，所述第一电子设备接收所述服务器发送的响应消息，所述响应消息用于所述第一电子设备向用户展示所述至少一个目标视频片段。

步骤840，所述第一电子设备根据所述服务器发送的响应消息展示所述至少一个目标视频片段；

步骤850，所述第一电子设备接收用户的确认指令，所述确认指令用于指示第一视频片段，所述第一视频片段为所述至少一个目标视频片段中的一个；

步骤860，所述第一电子设备向所述服务器发送视频播放消息，所述视频播放消息用于指示所述服务器向第二电子设备发送所述第一视频片段。

步骤870，所述服务器向所述第二电子设备发送所述第一视频片段。

该方法800未详述的部分，可以参见前述各实施例，在此不赘述。

可以理解的是，第一电子设备、第二电子设备以及服务器等设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对第一电子设备、第二电子设备以及服务器等设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，本申请实施例对此不作限定。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的第一电子设备、第二电子设备以及服务器等设备，用于执行上述聊天交互的方法，因此可以达到与上述实现方法相同的效果。

在采用集成的单元的情况下，第一电子设备、第二电子设备以及服务器等设备可以包括处理模块、存储模块和通信模块。其中，处理模块可以用于对执行的动作进行控制管理，存储模块可以用于存储程序代码和数据等。通信模块，可以用于支持第一电子设备、第二电子设备以及服务器之间的通信。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。

在一个实施例中，当处理模块为处理器，存储模块为存储器时，本实施例所涉及的第一电子设备、第二电子设备可以为具有图4所示结构的设备。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令被运行时，使得在包括第一电子设备、第二电子设备以及服务器等设备的系统中可以执行上述相关方法步骤实现上述实施例中的聊天交互的方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的聊天交互的方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的聊天交互方法。

其中，本实施例提供的第一电子设备、第二电子设备以及服务器等设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种聊天交互的方法，其特征在于，包括：

第一电子设备通过即时通讯应用软件获取用户输入的聊天文本；

所述第一电子设备通过所述即时通讯应用软件向服务器发送所述聊天文本的视频请求消息，所述视频请求消息用于请求至少一个目标视频片段，所述目标视频片段包括以字幕形式出现的目标对白文本，所述目标对白文本与所述聊天文本语义相同或者相近；

所述第一电子设备根据所述服务器发送的响应消息通过所述即时通讯应用软件展示所述至少一个目标视频片段；

所述第一电子设备通过所述即时通讯应用软件接收用户的确认指令，所述确认指令用于指示第一视频片段，所述第一视频片段为所述至少一个目标视频片段中的一个；

所述第一电子设备通过所述即时通讯应用软件向所述服务器发送视频播放消息，所述视频播放消息用于指示所述服务器向第二电子设备发送所述第一视频片段；

所述响应消息包括所述至少一个目标视频片段中的每个所述目标视频片段的所述目标对白文本；所述第一电子设备根据所述服务器发送的响应消息通过所述即时通讯应用软件展示所述至少目标一个视频片段，包括：

所述第一电子设备展示所述每个所述目标视频片段的目标对白文本；

所述响应消息还包括每个所述目标视频片段所对应的预览海报链接，所述第一电子设备根据所述服务器发送的响应消息通过所述即时通讯应用软件展示所述至少一个目标视频片段，包括：

所述第一电子设备根据所述预览海报链接下载并且展示每个所述目标视频片段的预览海报。

2.根据权利要求1所述的方法，其特征在于，所述响应消息还包括所述第一视频片段所对应的完整视频的下载地址的信息，以及所述第一视频片段在所述完整视频中的时间段位置的信息；所述第一电子设备根据所述服务器发送的响应消息通过所述即时通讯应用软件展示所述至少一个目标视频片段，包括：

所述第一电子设备根据所述下载地址和所述时间段位置下载并播放所述第一视频片段。

3.根据权利要求1所述的方法，其特征在于，所述第一电子设备通过所述即时通讯应用软件向服务器发送聊天文本的视频请求消息之前，所述方法还包括：

所述第一电子设备确定用户在文本输入框中输入所述聊天文本后的预设时长内未进行其他输入操作。

4.根据权利要求1所述的方法，其特征在于，所述目标视频片段包括多个，所述响应消息还包括匹配度的信息，所述第一电子设备根据所述服务器发送的响应消息通过所述即时通讯应用软件展示所述至少一个视频片段，包括：

所述第一电子设备根据所述匹配度以列表的形式按照匹配度由高到低的顺序展示每个所述目标视频片段。

5.一种聊天交互的方法，其特征在于，包括：

服务器接收第一电子设备通过即时通讯应用软件发送的聊天文本的视频请求消息，所述视频请求消息用于请求至少一个目标视频片段，所述目标视频片段包括以字幕形式出现的目标对白文本，所述目标对白文本与所述聊天文本语义相同或者相近；

所述服务器根据所述聊天文本确定所述至少一个目标视频片段；

所述服务器向所述第一电子设备发送响应消息，所述响应消息用于所述第一电子设备通过所述即时通讯应用软件展示所述至少一个目标视频片段；

所述服务器接收所述第一电子设备通过所述即时通讯应用软件发送的视频播放消息，所述视频播放消息用于指示所述服务器向第二电子设备发送第一视频片段，所述第一视频片段为所述至少一个目标视频片段中的一个；

所述服务器向所述第二电子设备发送所述第一视频片段；

所述响应消息包括所述至少一个目标视频片段中的每个所述目标视频片段的目标对白文本，所述目标对白文本用于供所述第一电子设备通过所述即时通讯应用软件进行展示；

所述响应消息还包括每个所述目标视频片段所对应的预览海报链接，所述预览海报链接用于所述第一电子设备下载并且展示每个所述目标视频片段的预览海报。

6.根据权利要求5所述的方法，其特征在于，所述响应消息还包括所述第一视频片段所对应的完整视频的下载地址的信息，以及所述第一视频片段在所述完整视频中的时间段位置的信息，所述下载地址和所述时间段位置用于所述第一电子设备下载并播放所述第一视频片段。

7.根据权利要求5所述的方法，其特征在于，所述目标视频片段包括多个，所述响应消息还包括匹配度的信息，所述匹配度用于所述第一电子设备以列表的形式按照匹配度由高到低的顺序展示每个所述目标视频片段。

8.根据权利要求5所述的方法，其特征在于，所述服务器根据所述聊天文本确定所述至少一个目标视频片段，包括：

对所述聊天文本和对白文本索引库中的对白文本进行匹配，所述对白文本索引库包括所述对白文本和视频片段的对应关系；

将匹配成功的对白文本所对应的视频片段确定为所述目标视频片段。

9.根据权利要求8所述的方法，其特征在于，所述对白文本和视频片段的对应关系包括所述对白文本和完整视频的对应关系，以及所述对白文本在所述完整视频出现的时间段位置的对应关系；

所述将匹配成功的对白文本所对应的视频片段确定为所述目标视频片段，包括：

将匹配成功的对白文本所对应的完整视频的位于所述时间段位置的视频内容确定为所述目标视频片段。

10.根据权利要求8所述的方法，其特征在于，所述对白文本索引库中的对白文本以对白文本向量的形式存在，所述对所述聊天文本和对白文本索引库中的对白文本进行匹配，包括：

将所述聊天文本转换成聊天文本向量；

计算所述聊天文本向量和所述对白文本向量的相对距离；

将与所述聊天文本向量的相对距离小于预设阈值的对白文本向量所对应的视频片段确定为所述目标视频片段。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

一个或多个存储器；

所述一个或多个存储器存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

通过即时通讯应用软件获取用户输入的聊天文本；

通过所述即时通讯应用软件向服务器发送聊天文本的视频请求消息，所述视频请求消息用于请求至少一个目标视频片段，所述目标视频片段包括以字幕形式出现的目标对白文本，所述目标对白文本与所述聊天文本语义相同或者相近；

根据所述服务器发送的响应消息通过所述即时通讯应用软件展示所述至少一个目标视频片段；

通过所述即时通讯应用软件接收用户的确认指令，所述确认指令用于指示第一视频片段，所述第一视频片段为所述至少一个目标视频片段中的一个；

通过所述即时通讯应用软件向所述服务器发送视频播放消息，所述视频播放消息用于指示所述服务器向第二电子设备发送所述第一视频片段；

所述响应消息包括所述至少一个目标视频片段中的每个所述目标视频片段的所述目标对白文本，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

通过所述即时通讯应用软件展示所述每个所述目标视频片段的目标对白文本；

所述响应消息还包括每个所述目标视频片段所对应的预览海报链接，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

根据所述预览海报链接下载并且展示每个所述目标视频片段的预览海报。

12.根据权利要求11所述的电子设备，其特征在于，所述响应消息还包括所述第一视频片段所对应的完整视频的下载地址的信息，以及所述第一视频片段在所述完整视频中的时间段位置的信息，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

根据所述下载地址和所述时间段位置下载并播放所述第一视频片段。

13.根据权利要求11所述的电子设备，其特征在于，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

在向服务器发送聊天文本的视频请求消息之前，确定用户在文本输入框中输入所述聊天文本后的预设时长内未进行其他输入操作。

14.根据权利要求11所述的电子设备，其特征在于，所述目标视频片段包括多个，所述响应消息还包括匹配度的信息，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

根据所述匹配度以列表的形式按照匹配度由高到低的顺序展示每个所述目标视频片段。

15.一种服务器，其特征在于，包括：

一个或多个处理器；

一个或多个存储器；

所述一个或多个存储器存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述一个或多个处理器执行时，使得所述服务器执行以下步骤：

接收第一电子设备通过即时通讯应用软件发送的聊天文本的视频请求消息，所述视频请求消息用于请求至少一个目标视频片段，所述目标视频片段包括以字幕形式出现的目标对白文本，所述目标对白文本与所述聊天文本语义相同或者相近；

根据所述聊天文本确定所述至少一个目标视频片段；

向所述第一电子设备发送响应消息，所述响应消息用于所述第一电子设备通过所述即时通讯应用软件展示所述至少一个目标视频片段；

接收所述第一电子设备通过即时通讯应用软件发送的视频播放消息，所述视频播放消息用于指示所述服务器向第二电子设备发送第一视频片段，所述第一视频片段为所述至少一个目标视频片段中的一个；

向所述第二电子设备发送所述第一视频片段；

16.根据权利要求15所述的服务器，其特征在于，所述响应消息还包括所述第一视频片段所对应的完整视频的下载地址的信息，以及所述第一视频片段在所述完整视频中的时间段位置的信息，所述下载地址和所述时间段位置用于所述第一电子设备下载并播放所述第一视频片段。

17.根据权利要求15所述的服务器，其特征在于，所述目标视频片段包括多个，所述响应消息还包括匹配度的信息，所述匹配度用于所述第一电子设备以列表的形式按照匹配度由高到低的顺序展示每个所述目标视频片段。

18.根据权利要求15所述的服务器，其特征在于，当所述指令被所述一个或多个处理器执行时，使得所述服务器执行以下步骤：

19.根据权利要求18所述的服务器，其特征在于，所述对白文本和视频片段的对应关系包括所述对白文本和完整视频的对应关系，以及所述对白文本在所述完整视频出现的时间段位置的对应关系；当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

20.根据权利要求18所述的服务器，其特征在于，所述对白文本索引库中的对白文本以对白文本向量的形式存在，当所述指令被所述一个或多个处理器执行时，使得所述服务器执行以下步骤：

将所述聊天文本转换成聊天文本向量；

计算所述聊天文本向量和所述对白文本向量的相对距离；

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至10中任意一项所述的方法。