CN111586469A

CN111586469A - 弹幕显示方法、装置及电子设备

Info

Publication number: CN111586469A
Application number: CN202010397590.1A
Authority: CN
Inventors: 廖锡光
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-08-25
Anticipated expiration: 2040-05-12
Also published as: CN111586469B

Abstract

本申请公开了一种弹幕显示方法、装置及电子设备，涉及互联网技术领域。其中，该方法包括：在视频播放过程中接收输入的语音信息；识别语音信息所属的意图类型，该意图类型包括弹幕输入或非弹幕输入；若语音信息所属的意图类型为弹幕输入，则在弹幕中显示语音信息对应的弹幕信息。如此，可以在不暂停视频播放的情况下实现弹幕信息的自动输入。

Description

弹幕显示方法、装置及电子设备

技术领域

本申请涉及互联网技术领域，更具体地，涉及一种弹幕显示方法、装置及电子设备。

背景技术

随着互联网技术的飞速发展，具有视频播放功能的互联网产品逐渐融入人们的生活。这些互联网产品通常具有弹幕功能，以使用户可在视频播放过程中参与互动。但是，用户在发送弹幕的过程中通常需要暂停视频播放，以进行弹幕输入，非常不便。

发明内容

本申请提出了一种弹幕显示方法、装置及电子设备，以改善上述问题。

一方面，本申请实施例提供了一种弹幕显示方法，包括：在视频播放过程中接收输入的语音信息；识别语音信息所属的意图类型，该意图类型包括弹幕输入或非弹幕输入；若语音信息所属的意图类型为弹幕输入，则在弹幕中显示语音信息对应的弹幕信息。

另一方面，本申请实施例提供了一种弹幕显示装置，包括：接收模块、识别模块和显示模块。接收模块用于在视频播放过程中接收输入的语音信息。识别模块用于识别语音信息所属的意图类型，该意图类型包括弹幕输入或非弹幕输入。显示模块用于当语音信息所属的意图类型为弹幕输入时，在弹幕中显示语音信息对应的弹幕信息。

另一方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，其上存储有程序代码，该程序代码可被处理器调用执行上述的方法。

本申请提供的方案，在视频播放过程中接收语音信息，识别语音信息所属的意图类型，当语音信息所属的意图类型是弹幕输入，在弹幕中显示语音信息对应的弹幕信息。如此，可以实现弹幕信息的自动输入，从而可以不必在弹幕输入过程中暂停视频播放，改善了用户体验，可以提升用户粘性。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请实施例提供的一种弹幕显示方法的流程示意图。

图3示出了图2所示步骤S202的一种子步骤示意图。

图4A示出了本申请实施例提供的一个例子中的弹幕显示示意图。

图4B示出了本申请实施例提供的另一个例子中的弹幕显示示意图。

图5示出了本申请实施例提供的另一种弹幕显示方法的流程示意图。

图6示出了图3所示步骤S202-1和S202-2的一种子步骤示意图。

图7示出了图6所示步骤S604的子步骤示意图。

图8示出了图3所示步骤S202-2的一种子步骤示意图。

图9示出了图8所示步骤S804的子步骤示意图。

图10示出了图3所示步骤S202-2的另一种子步骤示意图。

图11示出了本申请实施例提供的一个视频播放界面的示意图。

图12示出了图3所示步骤S202-1和S202-2的另一种子步骤示意图。

图13示出了图12所示的步骤S1203的子步骤示意图。

图14示出了图3所示步骤S202-1和S202-3的另一种子步骤示意图。

图15A示出了本申请实施例提供的一个例子中的视频播放界面示意图。

图15B示出了本申请实施例提供的另一个例子中的视频播放界面示意图。

图16示出了本申请实施例提供的弹幕显示装置的框图。

图17是本申请实施例的用于执行根据本申请实施例的弹幕显示方法的电子设备的框图。

图18是本申请实施例的用于保存或者携带实现根据本申请实施例的弹幕显示方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

具有视频播放功能的应用通常支持用户在视频播放过程中通过弹幕参与互动。弹幕是指在视频播放过程中，显示于视频播放界面上的用户评论信息，该用户评论信息例如可以是文字信息、语音信息或图像信息。

一些实施方式中，用户可以通过按键输入弹幕信息，但在弹幕信息输入过程中，视频会暂停播放，这种方式一方面操作繁琐，另一方面会影响用户观看视频的连续性。另一些实施方式中，用户可以通过语音方式输入弹幕信息，但在进行输入前，需要用户通过规定的方式触发语音弹幕输入功能，换言之，对用户的发送弹幕的方式有限制。上述方式均存在诸多不便，导致用户体验差，从而可能降低用户发送弹幕的意愿，降低用户粘性。

发明人经过长期的研究，提出了一种弹幕显示方法、装置及电子设备，可以实现弹幕信息的自动输入，从而可以改善用户体验，提升用户粘性。下面将对该内容进行详细的描述。

请参照图1，图1是适用于本申请实施例的应用环境示意图。其中，服务器100可以通过网络与终端设备200通信连接。终端设备200安装有客户端210，并可以通过客户端210登录到服务器100，从而通过与服务器100的配合，为用户提供相应的服务，例如弹幕服务、视频播放服务等。

其中，服务器100可以是独立的服务器，也可以是多个物理服务器构成的服务器集群或分布式系统，还可以是提供云计算、大数据和人工智能平台等基础云计算服务的云服务器。终端设备200可以是，但不限于，智能手机、平板电脑、笔记本电脑、个人计算机(Personal Computer，PC)、智能电视、便携式穿戴设备等。客户端210可以是任意具有视频播放功能且支持弹幕输入的应用程序，例如，可以是视频播放应用、直播应用、具有视频播放功能的页面浏览平台(比如，浏览器客户端)、社交平台、教育平台等。

本申请实施例提供的弹幕显示方法及装置可以应用于电子设备，这里的电子设备可以是图1所示的服务器100或者终端设备200。

请参照图2，图2是本申请实施例提供的一种弹幕显示方法，该方法可以应用于电子设备，本实施例以电子设备是图1中的终端设备200为例，对该方法的步骤进行描述。

S201，在视频播放过程中接收输入的语音信息。

本实施例中，终端设备200可以响应用户操作，对用户操作所对应的视频文件进行播放。在视频播放过程中，终端设备200可以检测本设备的音频采集器件是否处于开启状态，如果否，则开启音频采集器件。其中，视频正在播放、视频暂停播放等状态均可视为处于视频播放过程中，本实施例对此没有限制。音频采集器件例如可以是终端设备200的内置或外置的麦克风。

一种可能的实施方式中，终端设备200可以将从音频采集器件获得的音频信息直接确定为用户输入的语音信息。值得说明的是，虽然音频采集器件采集的音频信息，除了语音信息之外，还可能包括其他的杂音。但是，在后续的识别过程中，这些杂音的意图类型可以被识别为非弹幕输入，因而，这种方式不会影响本方案的实现。

另一种可能的实施方式中，终端设备200可以对从音频采集器件获得的音频信息进行过滤处理，以滤除杂音(如，不是人声的音频信息)，并将过滤处理后的音频信息确定为用户输入的语音信息。

S202，识别所述语音信息所属的意图类型，所述意图类型包括弹幕输入或非弹幕输入。

其中，意图类型可以用于表示语音信息的用途。语音信息所属的意图类型是弹幕输入，表示语音信息是用作弹幕信息的语音信息。语音信息所属的意图类型是非弹幕输入，表示语音信息不是用作弹幕信息的语音信息。

本实施例中，终端设备200获得的语音信息是其音频采集器件采集到的语音信息，这些语音信息包括用作弹幕信息的语音信息和不是用作弹幕信息的语音信息。因此，终端设备200在获得语音信息后，可以对语音信息进行语义识别，并基于语义识别结果确定语音信息所属的意图类型是弹幕输入还是非弹幕输入。

可选地，语义识别的方式可以有多种。一种方式中，可以通过机器学习模型对通过S201获得的语音信息进行处理，以输出该语音信息的意图类型。或者，也可以先将语音信息转换为文本信息，然后通过机器学习模型对文本信息进行处理，以输出该文本信息的意图类型。可以理解，在此方式中，文本信息的意图类型即为语音信息的意图类型。

示例性地，这里的机器学习模型可以是传统的机器学习算法，如SVM(SupportVector Machine，支持向量机)；也可以是深度学习模型，如CNN(Convolutional NeuralNetworks，卷积神经网络)、LSTM(Long Short-Term Memory，长短期记忆)模型、FastText(快速文本)模型等，或者还可以是前述的CNN和LSTM模型结合而成的模型(通常称为C-LSTM模型)等。本实施例对此没有限制。

上述的机器学习模型是指通过训练数据集训练后的模型。以机器学习模型的处理对象是语音信息转换而成的文本信息为例，训练数据集可以通过如下方式得到：获取用于弹幕输入的第一文本信息和非弹幕输入的第二文本信息，并分别为第一文本信息添加表示弹幕输入的标签信息，为第二文本信息添加表示非弹幕输入的标签信息；将具有标签信息的第一文本信息和第二文本信息添加至训练数据集。

训练过程中，可以将训练数据集中的每个文本信息输入机器学习模型，机器学习模型可以输出针对该文本信息的预测类型信息，并计算预测类型和该文本信息的标签信息之间的损失(loss)，根据所述损失对机器学习模型的模型参数进行调节，从而可以得到训练后的机器学习模型。

可以理解，本实施例中，语音信息也可以直接作为上述的机器学习模型的处理对象，对应地，训练数据集中的文本信息可以替换成该文本信息对应的语音信息，本实施例对此没有限制。

另一种方式中，用户在视频播放过程中输入的用作弹幕信息的语音信息，通常与当前播放的视频相关。因此，可以根据终端设备200当前播放的视频文件的相关信息来确定S201中获得的语音信息的意图类型。在此方式中，S202可以通过图3所示的流程实现。

S202-1，获取当前播放的视频文件的参数信息。

本实施例中，参数信息可以是与当前播放的视频文件相关的任意信息。一个例子中，参数信息可以是当前播放的视频文件的内容，比如可以是视频文件中的视频画面，或者可以是某个视频画面中显示的部分信息，这里的部分信息例如可以是视频画面中的图像信息、文字信息等。另一个例子中，参数信息可以是终端设备200或服务器100中配置的与当前播放的视频文件存在关联关系的信息，比如视频文件关联的词语、句子等，又比如视频文件关联的弹幕文件及该弹幕文件中的弹幕信息等。本实施例对此没有限制。

S202-2，根据所述参数信息识别语音信息所属的意图类型。

实施时，可以根据语音信息与当前播放的视频文件的参数信息的相关程度来确定语音信息的意图类型。这里的相关程度例如可以是语义相似度。

例如，如果两者的相关程度达到设置的条件，则可以确定语音信息是用作弹幕信息的语音信息，即意图类型是弹幕输入。如果两者的相关程度没有达到设置的条件，则可以确定语音信息不是用作弹幕信息的语音信息，即意图类型是非弹幕输入。

S203，若所述语音信息所属的意图类型为弹幕输入，则在弹幕中显示所述语音信息对应的弹幕信息。

实施过程中，如果终端设备200确定语音信息的意图类型是弹幕输入，表示语音信息是用作弹幕信息的语音信息。在此情况下，终端设备200可以向服务器100发送弹幕显示请求，以使服务器100在当前播放的视频画面的弹幕中显示语音信息对应的弹幕信息。

一种可选的方式中，终端设备200发送的弹幕显示请求可以包括语音信息，服务器100接收到弹幕显示请求时，可以从弹幕显示请求中获得语音信息，并基于该语音信息生成待显示弹幕信息。

一个例子中，待显示弹幕信息可以是语音条，该语音条与语音信息的链接地址关联。该链接地址可以理解成语音信息的存储地址。假设用户输入的语音信息v1的内容是“xxx好搞笑啊”，则服务器100可以根据语音信息v1生成语音条B1，语音条B1与语音信息v1的链接地址关联。服务器100可以将语音条B1添加到终端设备200当前播放的视频文件所对应的视频流中，或者是添加到终端设备200当前播放的视频文件所对应的弹幕文件中，从而可以在终端设备200的视频播放界面211的弹幕中显示该语音条B1。例如图4A所示，为终端设备200的视频播放界面的弹幕中显示语音条B1的情形，当用户点击语音条B1时，终端设备200可以根据语音条B1关联的链接地址获取到对应的语音信息v1，并可以对获取到的语音信息v1进行播放。

另一个例子中，待显示弹幕信息可以是语音信息对应的文本信息。以上述的语音信息v1为例，服务器100可以将语音信息v1转换成文本信息txt-1，再将文本信息txt-1添加到终端设备200当前播放的视频文件所对应的视频流或弹幕文件中，从而可以在终端设备200的视频播放界面211的弹幕中显示该文本信息txt-1。例如图4B所示，为终端设备200的视频播放界面的弹幕中显示文本信息txt-1的情形。

另一种可选的方式中，终端设备200可以基于语音信息生成对应的待显示弹幕信息后，再将待显示弹幕信息携带在弹幕显示请求中发送给服务器100。类似地，这里的待显示弹幕信息也可以是基于语音信息生成的语音条或文本信息。终端设备200生成待显示弹幕信息的过程及显示待显示弹幕信息的过程与上述例子类似，在此不再赘述。

通过本实施例提供的弹幕显示方法，可以从用户输入的语音信息中识别出用作弹幕信息的语音信息，并自动地在弹幕中显示该语音信息对应的弹幕信息，而不需要用户暂停视频播放进行弹幕信息的输入，或是通过规定的方式来唤醒终端设备的弹幕输入功能。如此，可以避免因视频播放暂停而打断用户观看视频，也可以避免复杂的弹幕输入功能唤醒操作对用户操作造成的限制，改善了用户体验，可以提升用户进行弹幕互动的意愿，从而提升用户粘性。

本申请实施例提供端的弹幕显示方法也可以由服务器100通过与终端设备200的交互实现。请参照图5，其中示出了服务器100在实现弹幕显示方法的过程中与终端设备200的交互流程。

S501，终端设备200在视频播放过程中接收输入的语音信息。

S502，终端设备200获取当前播放的视频文件的参数信息。

本实施例中，S501、S502的实现过程分别与上述的S201、S202-1类似，在此不再赘述。

S503，终端设备200将语音信息和参数信息发送给服务器100。

本实施例中，终端设备200在视频播放过程中采集到语音信息并获取到当前播放的视频文件的参数信息后，可以将语音信息和参数信息一并发送给服务器100。换句话说，本实施例中服务器100接收的语音信息是在终端设备200播放视频的过程中采集并发送的。

S504，服务器100根据参数信息识别语音信息所属的意图类型，该意图类型包括弹幕输入或非弹幕输入。

本实施例的一种实施方式中，服务器100可以利用上文描述的机器学习模型来识别语音信息所属的意图类型。另一种实施方式中，可以基于参数信息来识别语音信息所属的意图类型，在此情况下，S504的详细实现流程与上述的S202-2类似，在此不再赘述。

S505，服务器100在确定语音信息所属的意图类型是弹幕输入时，将语音信息对应的弹幕信息发送给终端设备200。

S506，终端设备200在弹幕中显示语音信息对应的弹幕信息。

本实施例的S505-S506的详细实现流程与上述的S203类似。详细地，服务器100在确定语音信息是用作弹幕信息的语音信息时，可以将语音信息对应的弹幕信息添加到终端设备200当前播放的视频文件对应的视频流或弹幕文件中。其中，所述弹幕信息可以是语音条或文本信息，本实施例对此没有限制。

通过图5所示的弹幕显示方法，可以在不暂停视频播放的情况下，实现弹幕信息的自动输入，并且不需要用户通过规定的方式来唤醒弹幕输入功能，非常方便，可以改善用户体验，提升用户进行弹幕交互的意愿，提升用户粘性。

请再次参照图3，下面将对图3所示的弹幕显示方法的流程做进一步的详细阐述。

发明人研究发现，用户输入弹幕的场景可能有多种，而不同弹幕输入场景下输入的用作弹幕信息的语音信息将具有不同的特征。因此，本申请实施例中，可以针对不同的弹幕输入场景分别采用不同的识别处理流程，以便将相应弹幕输入场景下的、用作弹幕信息的语音信息识别出来。

一些弹幕输入场景中，用作弹幕信息的语音信息(即，具有弹幕输入意图的语音信息)可能具有明显的弹幕特征。

比如，一个示例性的场景中，终端设备200采集的语音信息可以是针对终端设备200当前播放的视频文件的评论信息。在此情况下，语音信息的内容通常与视频文件的内容存在一定关联。

针对这一场景，一种可选的方式中，服务器100中可以配置有与不同视频文件关联的关键词。对应地，S202-1可以通过图6所示的步骤S601-S602实现。

S601，获取当前播放的视频文件的标识信息。

本实施例中，标识信息可以是视频文件的ID(identity)，可以是任意能够表示视频文件的身份信息的标识符。服务器100可以存储有每个视频文件、该视频文件的ID及该视频文件关联的关键词之间的对应关系。其中，关键词可以是任意与视频文件相关的词。比如可以是视频文件涉及的人物的姓名，如演职人员姓名、角色姓名等。又比如可以是视频文件的片名，又比如可以是视频文件中金句、热门用语等。本实施例对此没有限制。

S602，获取标识信息关联的关键词。

本实施例中，服务器100存储的视频文件的标识信息和视频文件关联的关键词之间的对应关系可以是一条包含标识信息和关键词的数据记录。实施过程中，终端设备200在获得当前播放的视频文件的标识信息后，可以向服务器100发送携带该标识信息的关键词查询请求。服务器100根据关键词查询请求中的标识信息，查找包含该标识信息的数据记录作为目标记录，并获取目标记录中的关键词返回给终端设备200。

对应地，基于上述获得的关键词，S202-2可以包括图6所示的步骤S603-S604，以实现对语音信息的意图类型的识别。详细描述如下。

S603，将语音信息转换为文本信息。

这里的文本信息也可以理解成文字信息，是指与语音信息的内容对应的一个或多个字符。本实施例中，终端设备200在视频播放过程中采集到语音信息后，通过S603对语音信息进行转换处理，以得到对应的文本信息。换言之，S603和上述的S601、S602没有执行书序上的限制。

S604，若文本信息包括关键词，则将语音信息的意图类型确定为弹幕输入。

实施过程中，终端设备200在将语音信息转换成文本信息，且获得视频文件关联的关键词之后，可以检测文本信息中是否存在关键词，如果存在任意一个关键词，则可以确定语音信息是用作弹幕信息的语音信息。如果文本信息中不存在关键词，一种方式中可以确定语音信息的意图类型是非弹幕输入，另一种方式中，也可以通过本申请实施例中描述的其他识别处理流程，来对语音信息的意图类型做进一步识别处理。

进一步地，为了提升意图类型识别结果的准确度，上述的S604可以通过图7所示的步骤实现。

S604-1，判断文本信息是否符合关键词对应的第一句式。

这里的句式是指句型结构，第一句式可以理解成关键词对应的弹幕输入句式，文本信息是指基于接收的语音信息转换得到的文本信息。

实际应用中，用作弹幕信息的语音信息，其对应的文本信息可能符合特定的句式。并且，随着关键词类型的不同，包含关键词的弹幕信息的句式可能会发生变化。因此，终端设备200在确定语音信息对应的文本信息包含关键词的情况下，可以进一步识别文本信息的句式是否为关键词对应的弹幕输入句式。

一种实施方式中，可以通过模板匹配的方式来判断文本信息是否符合第一句式。详细地，针对不同类型的关键词，可以根据包含该类型的关键词的弹幕信息的常见句式，设置句式模板。句式模板可以视为S604-1中的第一句式。第一句式可以包括关键词字段和非关键词字段，其中，关键词字段填充的信息可以是关键词的类型标识，非关键词字段则填充有具体的信息，即需要匹配的模板内容。

比如，“[Name]也太好笑了吧”可以视为一个第一句式。其中，“[Name]”为关键词字段，填充的信息“Name”表示关键词的类型是姓名；“也太好笑了吧”则为非关键词字段中填充的信息。

实施过程中，在获得当前播放的视频文件关联的关键词之后，可以将关键词添加到分词引擎中，然后通过分词引擎对语音信息对应的文本信息进行分词，这样，可以将文本信息中的关键词和其他信息拆分开。为了便于理解，这里将文本信息中除了关键词之外的信息描述为非关键词信息。然后，可以根据文本信息中的关键词的类型，查找关键词字段是该类型的类型标识的第一句式，并计算文本信息中的非关键词信息与查找到的第一句式中非关键词字段的填充内容的语义相似度。如果语义相似度符合目标条件，则可以确定文本信息符合第一句式。

比如，假设基于语音信息v2转换得到的文本信息txt-2为“AA也太好笑了吧”，其中，AA是视频文件涉及的一个演员的姓名。则可以将“AA”添加到分词引擎中，分词引擎至少可以将txt-2拆分为“AA”和“也太好笑了吧”两部分，其中，除了关键词“AA”之外的部分即为非关键词信息。然后，终端设备200可以根据关键词“AA”的类型标识“Name”查找到关键词字段填充有“Name”的所有第一句式，比如，“[Name]好可怜”、上述的“[Name]也太好笑了吧”等。终端设备200可以计算非关键词信息“也太好笑了吧”与查找到的第一句式中非关键词字段的填充信息的语义相似度，并判断该语义相似度是否符合目标条件，如果非关键词信息与任意一个第一句式中非关键词字段的填充信息之间的语义相似度符合目标条件，则可以确定文本信息符合第一句式。

这里的目标条件可以根据统计数据或经验灵活设置，并且，目标条件可以随着语义相似度的具体计算方式的不同而不同。

例如，语义相似度可以是文本字面距离，其计算方式可以为：确定非关键词信息与非关键词字段的填充信息中的不同字符的数量为第一数量；确定非关键词信息和非关键词字段的填充信息中字符数量较多的一者，并将该者包含的字符数量确定为第二数量；获取第一数量与第二数量的比值作为非关键词信息与非关键词字段的填充信息之间的文本字面距离。对应地，目标条件可以是针对文本字面距离设置的目标距离范围，比如可以为0-20％。

一个示例中，非关键词信息例如为“也太好笑了吧”，非关键词字段的填充信息例如为“也太好笑了”，则可以确定两者存在一个字符不同，则第一数量为1。字符数量较多的是非关键词信息，共6个字符，因此第二数量为6。基于此，可以计算出本示例中非关键词信息与非关键词字段的填充信息之间的文本字面距离是1/6，符合目标条件。

又例如，语义相似度可以是句向量距离。首先，可以分别确定非关键词信息和非关键词字段的填充信息各自的句向量，句向量的确定例如可以通过BERT(BidirectionalEncoder Representations from Transformers，转换器的双向编码器表示)模型、FastText模型等实现。然后，可以计算非关键词信息的句向量与非关键词字段的填充信息的句向量之间的距离，这里的距离可以是余弦距离、汉明距离、欧式距离等，本实施例对此没有限制。对应地，目标条件可以是针对句向量距离设置的目标距离范围，其具体范围可以根据句向量距离的含义的不同而灵活设置。可以理解，由于句向量距离越小，语义相似度越高，这里的目标距离范围是用于表示句向量距离足够小的范围。

另一种实施方式中，可以通过NLP(Natural Language Processing，自然语言处理)模型来判断文本信息是否符合第一句式。示例性地，该NLP模型例如可以是BI-LSTM(双向LSTM)模型或BERT模型。

NLP模型可以通过训练数据集训练得到，该训练数据集可以通过如下方式建立：获取包含关键词的弹幕信息作为第一样本，为第一样本添加标签信息，该标签信息用于表示第一样本符合第一句式；获取包含关键词、且不是用作弹幕信息的文本信息作为第二样本，为第二样本添加标签信息，该标签信息用于表示第二样本不符合第一句式；将具有标签信息的第一样本及具有标签信息的第二样本加入训练数据集。

训练过程中，将训练数据集中的样本输入NLP模型，NLP模型的输出为该样本的预测类型信息，预测类型信息表示NLP模型对该样本是否符合第一句式的预测结果。然后，可以根据预测类型信息与该样本的标签信息之间的损失(loss)调节NLP模型的模型参数，并在NLP模型满足优化条件时结束训练。其中，优化条件例如可以是所述损失不再减小，或是用于计算所述损失的损失函数收敛等。

实施过程中，可以将语音信息转换而成的文本信息输入经过训练的NLP模型，并获取经过训练的NLP模型输出的预测类型信息，根据该预测类型信息可以确定文本信息是否符合第一句式。

通过NLP模型，可以从接收的语音信息中更加全面、完整地识别出具有弹幕输入意图的语音信息所对应的文本信息，比如，除了可以识别出上述句式模板匹配的文本信息之外，还可以识别出一些更加口语化的、用作弹幕信息的语音信息所对应的文本信息，提高了检出率。

S604-2，若文本信息符合第一句式，则将语音信息的意图类型确定为弹幕输入。

其中，当终端设备200通过S604-1确定文本信息符合第一句式时，可以确定语音信息的意图类型是弹幕输入，从而可以按照S203对语音信息对应的弹幕信息进行显示。当终端设备200通过S604-1确定文本信息不符合第一句式时，可以确定语音信息的意图类型是非弹幕输入，从而可以不显示语音信息对应的弹幕信息；也可以继续通过本申请实施例中描述的其他识别处理流程，对所述语音信息的意图类型进行识别处理，以确定所述语音信息是否是其他弹幕输入场景下的、具有弹幕输入意图的语音信息。

通过对文本信息中关键词和文本信息的句式的识别，可以得到更为准确的意图类型识别结果。

针对语音信息的语义与视频文件的内容存在关联的弹幕输入场景，另一种可选的方式中，可以根据终端设备200接收的语音信息与终端设备200当前播放的视频画面内容之间的关联程度，来识别语音信息的意图类型。在此情况下，S202-1可以包括图8所示的步骤S801实现，对应地，S202-2则可以包括图8所示的步骤S802、S803和S804实现。

S801，截取当前播放的视频画面。

本实施例中，终端设备200可以在视频播放过程中接收到语音信息时，对视频播放界面上显示的画面进行截取。截取的画面即为所述当前播放的视频画面。换言之，这里的当前播放的视频画面可以是接收语音信息的时刻播放的视频画面。

S802，将语音信息转换为文本信息。

其中，S802的实现过程可以参照上文对S603的描述，在此不再赘述。

S803，若文本信息包含目标物体的标识信息，则检测当前播放的视频画面中是否存在目标物体。

这里的目标物体可以是任意物体，标识信息则可以是目标物体的类别名称(也可以称为“品名”)，例如，可以是苹果、房子、包包等品名。终端设备200可以通过文本检测模型来检测语音信息对应的文本信息中是否存在目标物体的标识信息，文本检测模型例如可以通过FastText模型、HMM(Hidden Markov Model，隐马尔科夫模型)、CRF(ConditionalRandom Field Algorithm，条件随机场算法)、Word2Vec(文字转向量)模型等中的一者或多者的结合实现。

在确定文本信息包含任意一个物体的品名时，可以对获取的当前播放的视频画面进行检测，例如可以通过目标检测模型检测当前播放的视频画面中是否存在该物体。详细地，针对图像的目标检测模型例如可以是CNN、DCNN(Deep Convolutional NeuralNetwork，深度卷积神经网络)等。实施时，可以将当前播放的视频画面作为目标检测模型的输入，并获取目标检测模型的输出，该输出包括当前播放的视频画面中存在各个物体的位置信息和标签信息，标签信息可以是物体的类别名称。然后，可以判断目标检测模型的输出中是否存在文本信息包含的所述目标物体的标识信息，或者也可以判断目标检测模型的输出中是否存在与文本信息中的所述目标物体的标识信息具有相同语义的标签信息，如果前述任意一个判断的结果为是，则可以确定当前播放的视频画面中存在目标物体。

S804，若当前播放的视频画面中存在目标物体，则将语音信息的意图类型确定为弹幕输入。

终端设备200在确定接收语音信息的时刻所播放的视频画面中存在目标物体的情况下，可以确定该语音信息所属的意图类型是弹幕输入。也就是，该语音信息是用作弹幕信息的语音信息，从而可以按照S203显示该语音信息对应的弹幕信息。

一个例子中，如果终端设备200在视频播放过程中接收的语音信息的内容是“这个包包我背也好看”，则终端设备200可以将语音信息转换为文本信息，进而从文本信息中识别出“包包”是目标物体的标识信息，并可以从当前播放的视频画面中检测是否存在标识信息“包包”所对应的目标物体。如果存在，则可以将语音信息“这个包包我背也好看”的意图类型确定为弹幕输入。如此，可以进一步提升具有弹幕输入意图的语音信息的检出率。

可选地，包含物体的标识信息的文本信息通常符合特定的句式。因此，为了在提升用作弹幕信息的语音信息的检出率的基础上，提升检测准确度，上述的S804中，将语音信息的意图类型确定为弹幕输入的步骤可以通过图9所示的流程实现。

S804-1，判断文本信息是否符合目标物体的标识信息对应的第二句式。

S804-2，若文本信息符合第二句式，则将语音信息的意图类型确定为弹幕输入。

本实施例中，S804-1至S804-2的详细实现流程与上述的S604-1至S604-2类似。详细地，第二句式可以是与目标物体的标识信息对应的句式，文本信息是指基于接收的语音信息转换而成的文本信息。本实施例中，第二句式的格式可以和上述的第一句式类似，与第一句式不同的是，第二句式的关键词字段填充的信息是物体的标识信息，而非关键词的类型标识。

针对语音信息的语义与视频文件的内容存在关联的弹幕输入场景，再一种可选的方式中，考虑到在视频画面中除了图像信息之外，有时还存在文字信息，例如字幕信息、弹幕信息等。因而，S202-1中获取的当前播放的视频文件的参数信息可以是终端设备200当前播放的视频画面。对应地，为了进一步提升具有弹幕输入意图的语音信息的检出率，S202-2还可以包括图10所示的步骤S1001和S1002。

S1001，检测当前播放的视频画面中是否存在文字信息，文字信息包括字幕信息和弹幕信息中的至少一者。

实际应用中，字幕信息和弹幕信息通常是一行文字信息。比如图11所示的终端设备200当前播放的视频画面的示意图，其中示出了弹幕信息txt-3“AA真的搞笑”、txt-4“AA这么好笑的吗”、txt-5“笑死我了”，以及字幕信息txt-6“AA你是不是傻”。

基于此，本实施例可以通过文本检测模型来对当前播放的视频画面进行处理，以检测出当前播放的视频画面中的文本行的位置，再通过文本识别模型来对检测出的每个文本行进行处理，以识别出该文本行中的文字信息。其中，文本检测模型比如可以是Fasster-RCNN(Faster-Regions with Convolutional Neural Networks，快速区域卷积神经网络)模型、CTPN(Connectionist Text Proposal Network，连接文本提案网络)模型等。文本识别模型例如可以是CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)模型等。

在当前播放的视频画面中存在字幕信息或弹幕信息的情况下，通过S901，终端设备200可以从当前播放的视频播放画面中获取一个或多个文字信息，这里的一个文字信息可以理解成一个弹幕文本信息，或者一个字幕文本信息。

S1002，若当前播放的视频画面中存在文字信息，则获取文字信息与语音信息的语义相似度。

终端设备200在从当前播放的视频画面中识别出任意一个文字信息之后，可以将语音信息转换为文本信息，再确定该文字信息与文本信息的语义相似度。这里的语义相似度与上文提及的语义相似度类似，也可以是文本字面距离，或者可以是文字信息与文本信息各自的句向量之间的距离。本实施例对此没有限制。

S1003，若语义相似度符合目标条件，则确定语音信息所属的意图类型为弹幕输入。

本实施例中，针对语义相似度设置的目标条件可以通过统计数据或者经验来设置。比如，以语义相似度是文本字面距离为例，针对文本字面距离设置的目标条件例如可以是文本字面距离小于目标距离，该目标距离比如可以是15％-20％，比如16％。对应地，若当前播放的视频画面中的文字信息与基于语音信息转换而成的文本信息之间的文本字面距离小于目标距离，则可以确定该文字信息与该文本信息的语义相似度是符合目标条件的，从而可以确定语音信息是具有弹幕输入意图的。

关于S1002-S1003的详细实现过程，可以参照上文关于S604-1的相关描述，在此不再继续赘述。

可以理解，针对语音信息的意图类型的识别，可以只通过图6、图8、图10任意一者所示的识别处理流程进行实现，也可以同时采用其中至少两者所示的识别处理流程实现，本实施例对此没有限制。

对于用作弹幕信息的语音信息具有明显的弹幕特征的情况，另一个示例性的场景中，有些用户输入的语音信息中可能带有明确表示弹幕输入的信息，比如带有“输入弹幕”、“发送弹幕”等短语。对于这种情况，一种方式中，终端设备200可以获取并配置用于表示弹幕输入的词语或短语作为模板，当在视频播放过程中接收到语音信息时，可以将语音信息转换为文本信息，并检测该文本信息是否包含前述配置的任意一个模板，如果是，则可以确定该语音信息具有弹幕输入意图，即意图类型是弹幕输入。

另一种方式中，终端设备200可以通过上述关于S202的描述中，用于识别文本信息的意图类型的机器学习模型，对语音信息转换而成的文本信息进行处理。详细实现过程在此不再赘述。

实际应用中，除了用作弹幕信息的语音信息具有明显的弹幕特征的弹幕输入场景，还存在另一些弹幕输入场景，用户在这些场景中输入的、用作弹幕信息的语音信息可能不具有明显的弹幕特征。为了识别出这部分语音信息，一种可能的实施方式中，S202-1可以包括图12所示的步骤S1201-S1202。

S1201，确定当前时刻所处的第一时间段。

其中，终端设备200可以从服务器100获取第一时间段的确定规则，该确定规则可以根据需要灵活设置。比如，可以是取中心时间点为当前时刻、时间跨度为第一时长的时间段作为第一时间段；又比如，可以是取包含当前时刻、时间跨度为第一时长的时间段为第一时间段。其中，第一时长可以灵活设置，比如，可以是1-10秒，如，5秒。可以理解，前述关于时间段确定规则、第一时长的描述均为举例，本实施例对此没有限制。

S1202，获取在第一时间段内针对所述视频文件输入的目标弹幕信息。

本实施例中，服务器100可以存储有视频文件对应的弹幕文件，弹幕文件包括各个用户针对该视频文件输入的弹幕信息及每个弹幕信息的显示时间戳。这里的显示时间戳与该弹幕信息的输入时间，或者终端设备200接收到该弹幕信息的时间基本一致。

进一步地，服务器100还可以存储有弹幕文件中每个弹幕信息的输入方式，输入方式可以包括主动输入和自动输入。主动输入的弹幕信息可以理解为用户在给出明确的弹幕输入指令之后输入的信息。弹幕输入指令可以是用户对终端设备200上显示的弹幕输入框执行的触控操作所触发的指令，也可以是通过规定的弹幕输入功能唤醒词触发的指令，本实施例对这一点没有限制。自动输入的弹幕信息可以是，本实施例中描述的由终端设备200在视频播放过程中自动采集的语音信息所对应的弹幕信息。

一个例子中，S202-4中的目标弹幕信息可以是弹幕文件中显示时间戳处于第一时间段内的所有弹幕信息。

另一个例子中，考虑到主动输入的弹幕信息是确定的弹幕信息，即明确的具有弹幕意图的信息，因此，可以将主动输入的弹幕信息确定为目标弹幕信息，以使后续基于目标弹幕信息确定的语音信息的意图类型更为准确。对应地，S202-4可以的详细实现方式可以是：从视频文件对应的弹幕文件中，获取在第一时间段内、响应于弹幕输入指令而接收的文本信息或语音信息，将获取的文本信息或语音信息作为目标弹幕信息。

本实施例中，视频文件对应的弹幕文件及该弹幕文件的内容均可以理解成视频文件的参数信息。对应地，上述的目标弹幕信息也可以理解成视频文件的弹幕信息。

值得说明的是，本实施例中的弹幕信息可以是弹幕文本信息也可以是弹幕语音信息，因此，在第一时间段内，在用户触发弹幕输入指令之后被输入的文本信息或语音信息均可以视为用户主动输入的弹幕信息，即，均可以被确定为目标弹幕信息。

对应地，基于上述获得的目标弹幕信息，S202-2可以包括图12所示的步骤S1203，以实现对语音信息的意图类型的识别。详细描述如下。

S1203，根据目标弹幕信息与语音信息的语义相似度，确定语音信息所属的意图类型。

其中，语音信息是指终端设备200在视频播放过程中接收的语音信息，例如上述S201中的语音信息。本实施例中，S1203可以通过图13所示的流程实现。

S1203-1，确定目标弹幕信息与语音信息的语义相似度。

实施过程中，如果目标弹幕信息是语音，则可以先分别将目标弹幕信息和终端设备200通过S201接收的语音信息转换成文本信息后，再计算两个文本信息的语义相似度。如果目标弹幕信息是文本，则可以将终端设备200通过S201接收的语音信息转换成文本信息后，再计算该文本信息和目标弹幕信息的语义相似度。

S1203-2，若语义相似度符合目标条件，则确定语音信息的意图类型为弹幕输入。

本实施例中的语义相似度的含义与上述实施例类似，也可以是文本字面距离或句向量距离。针对语义相似度设置的目标条件也可以和上述实施例类似。因此，S1203-2的详细实现过程可以参照上述关于S604-1以及S1002和S1003的相关描述。

详细地，如果确定目标弹幕信息和语音信息的语义相似度符合目标条件，表示在用户针对视频文件输入语音信息的第一时间段内，其他用户也有针对该视频文件输入与该语音信息语义相似的弹幕信息，因此，该语音信息用作弹幕信息的几率较大，可以将该语音信息确定为弹幕输入。例如图11所示的场景中，同一时间点用户输入的弹幕信息均为表示“搞笑”的弹幕信息。那么，当某一个用户输入表示类似含义的语音信息时，该语音信息的意图类型将被识别为弹幕输入。如此，可以进一步提升具有弹幕输入意图的语音信息的检出率。

为了识别出不具有明显的弹幕特征、且用作弹幕信息的语音信息，另一种可能的实施方式中，S202-1可以包括图14所示的步骤S1401-S1402。

S1401，确定当前时刻所处的第二时间段。

其中，S1401的实现过程与上述的S1201类似，可以参照上文关于S1201的相关描述。详细地，终端设备200可以从服务器100获取针对第二时间段的确定规则。可以理解，针对第二时间段的确定规则与针对第一时间段的确定规则可以类似。比如，终端设备200可以取中心时间点是当前时刻、时间跨度为第二时长的时间段作为第二时间段。又比如，终端设备200可以取包括当前时刻、时间跨度是第二时长的时间段作为第二时间段。这里的第二时长和上述的第一时长可以相同，也可以不同。

S1402，获取在第二时间段内针对所述视频文件输入的目标语音信息。

其中，针对视频文件输入的目标语音信息，是指任意一个终端设备200在播放该视频文件的过程中接收的语音信息。本实施例中，每个终端设备200可以将在视频播放过程中接收的语音信息、接收时间及该终端设备200当前播放的视频文件的标识信息发送至服务器100存储。

以第二时间段是以当前时刻为中心、时间跨度为1秒的时间段为例，终端设备200在视频播放过程中接收到语音信息v3之后，可以向服务器100发送该语音信息v3、接收时间t1及当前播放的视频文件的标识信息(如，id1)。服务器100存储v3、t1、id1之间的关联关系，获取接收时间处于t1之前0.5秒内、且与id1关联的语音信息作为待聚类语音信息，并对t1之后0.5秒内接收的语音信息进行监测，如果监测到任一语音信息与id1关联，则可以将该语音信息也确定为待聚类语音信息。服务器100可以将确定的待聚类语音信息返回给终端设备200。这里的待聚类信息即为目标语音信息。值得说明的是，目标语音信息可以视为视频文件的参数信息。

对应地，基于上述获得的目标语音信息，S202-2可以包括图14所示的S1403至S1405。详细描述如下。

S1403，将目标语音信息转换为目标文本信息。

目标语音信息即为上述的待聚类语音信息。终端设备200可以将待聚类语音信息转换为文本信息，该文本信息即为目标文本信息。可以理解，在弹幕显示方法应用于服务器100的情况下，也可以由服务器100将所确定的待聚类语音信息转换为目标文本信息，并对目标文本信息执行后续的S1404和S1405。本实施例对此没有限制。

S1404，对目标文本信息进行聚类，得到至少两个类别，每个类别具有中心文本信息。

本实施例中，所述聚类可以通过多种方式实现。比如可以是K-Means(K-均值)算法、均值漂移聚类算法、DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise，基于密度的聚类算法)等。其中，所述聚类可以通过Faiss(Facebook AISimilarity Search，脸书人工智能相似性搜索)等引擎来实现。

通过聚类，可以将各目标文本信息划分为至少两个组，每个组对应一个类别。每个类别具有一个中心文本信息，该类别对应的组内的各目标文本信息与该中心文本信息的距离基本相同，换言之，同一类别对应的组内的各目标文本信息与该组的中心文本信息的距离之间的差值处于误差范围内，比如，小于0.01。可以理解，这里的误差范围仅为举例说明，而非用于限制本申请。

S1405，若语音信息与任意一个中心文本信息的语义相似度符合目标条件，则确定语音信息的意图类型为弹幕输入。

本实施例中，S1405的详细实现过程与S1203-1至S1203-2类似，可以参照上文对图13所示流程的描述。详细地，中心文本信息表示的是第二时间段内用户针对视频文件输出较多的语音信息所对应的文本信息。换句话说，第二时间段内，观看视频文件的多数用户都输出了中心文本信息。如果终端设备200在第二时间段内，播放该视频文件的过程中，接收的语音信息与中心文本信息的语义相似度比较高(达到了目标条件)，则表示该语音信息具有弹幕输入意图的概率较大。因而，可以将该语音信息的意图类型确定为弹幕输入。

通过图14所示的流程，可以比较准确地检测出弹幕特征不明显、但具有弹幕输入意图的语音信息。

如上所述的，中心文本信息是第二时间段内，观看视频文件的多数用户都在输入的语音信息所对应的文本信息。因此，一种方式中，还可以将中心文本信息作为弹幕信息显示于正在播放所述视频文件的终端设备200的弹幕中。另一种方式中，可以根据中心文本信息的语义确定对应的表情图像，并将表情图像作为弹幕信息显示于正在播放所述视频文件的终端设备200的弹幕中。进一步地，一些终端设备200在播放视频的过程中可能没有开启弹幕显示功能，在此情况下，则可以将中心文本信息对应的表情图像显示于正在播放所述视频文件的终端设备200的视频播放界面中。

比如，一个中心文本信息是“哈哈哈”，则可以在视频播放界面中显示例如图15A所示的表情图像。又比如，一个中心文本信息是“好帅啊”，则可以在视频播放界面中显示例如图15B所示的表情图像。可以理解，这里的表情图像可以是动态图像或静态图像，本实施例对此没有限制。

值得注意的是，实际应用中，本申请实施例提供的弹幕显示方法，可以包括上述针对不同弹幕输入场景的识别处理流程的任意一者或多者，本实施例对此不做限制。一个例子中，可以先按照具有明显弹幕特征的弹幕输入场景下的识别处理流程，识别语音信息的意图类型，如果无法确定语音信息的意图类型是弹幕输入，再按照不具有明显弹幕特征的弹幕输入场景下的识别处理流程，识别语音信息的意图类型。可以理解，如果按照上述各种识别处理流程均无法确定语音信息具有弹幕输入意图，则可以将该语音信息的意图类型确定为非弹幕输入。

通过本申请实施例提供的弹幕显示方法，可以比较全面、准确地识别出视频播放过程中采集的语音信息是否具有弹幕输入意图，从而根据具有弹幕输入意图的语音信息进行弹幕显示。如此，可以实现自动弹幕输入，而可以不必在弹幕输入过程中暂停视频播放，用户也不需要采用规定的方式进行弹幕输入，减小了对用户的弹幕输入方式的限制，可以提升用户进行弹幕输入的意愿，提升用户粘性。

请参阅图16，其示出了本申请实施例提供的一种弹幕显示装置的结构框图。该装置1600可以用于执行本申请实施例提供的方法中的相应步骤。从功能上划分，该装置1600可以包括：接收模块1601、识别模块1602和显示模块1603。

其中，接收模块1601用于在视频播放过程中接收输入的语音信息。

识别模块1602用于识别所述语音信息所属的意图类型，所述意图类型包括弹幕输入或非弹幕输入。

显示模块1603用于当所述语音信息所属的意图类型为弹幕输入时，在弹幕中显示所述语音信息对应的弹幕信息。

可选地，识别模块1602具体可以用于：获取当前播放的视频文件的参数信息；根据所述参数信息识别所述语音信息所属的意图类型。

可选地，识别模块1602获取当前播放的视频文件的参数信息的方式可以是：获取当前播放的视频文件的标识信息；获取所述标识信息关联的关键词。对应地，识别模块1602根据参数信息识别语音信息所属的意图类型的方式可以是：将所述语音信息转换为文本信息；若所述文本信息包括所述关键词，则将所述语音信息的意图类型确定为弹幕输入。

可选地，识别模块1602将语音信息的意图类型确定为弹幕输入的方式可以是：判断所述文本信息是否符合所述关键词对应的第一句式；若所述文本信息符合所述第一句式，则将所述语音信息的意图类型确定为弹幕输入。

可选地，识别模块1602获取当前播放的视频文件的参数信息的方式可以是：截取当前播放的视频画面。对应地，识别模块1602根据所述参数信息识别所述语音信息所属的意图类型的方式可以是：将所述语音信息转换为文本信息；若所述文本信息包含目标物体的标识信息，则检测所述当前播放的视频画面中是否存在所述目标物体；若所述当前播放的视频画面中存在所述目标物体，则将所述语音信息的意图类型确定为弹幕输入。

可选地，识别模块1602将语音信息的意图类型确定为弹幕输入的方式可以是：判断所述文本信息是否符合所述目标物体的标识信息对应的第二句式；若所述文本信息符合所述第二句式，则将所述语音信息的意图类型确定为弹幕输入。

可选地，所述当前播放的视频文件的参数信息可以包括当前播放的视频画面。对应地，识别模块1602根据所述参数信息识别所述语音信息所属的意图类型可以是：检测当前播放的视频画面中是否存在文字信息，所述文字信息包括字幕信息和弹幕信息中的至少一者；若当前播放的视频画面中存在文字信息，则获取所述文字信息与所述文本信息的语义相似度，若所述语义相似度符合目标条件，则确定所述语音信息所属的意图类型为弹幕输入。

可选地，识别模块1602获取当前播放的视频文件的参数信息的方式还可以是：确定当前时刻所处的第一时间段；获取在所述第一时间段内针对所述视频文件输入的目标弹幕信息。对应地，识别模块1602根据所述参数信息识别所述语音信息所属的意图类型的方式还可以是：根据所述目标弹幕信息与所述语音信息的语义相似度，确定所述语音信息所属的意图类型。

可选地，识别模块1602获取在第一时间段内针对视频文件输入的目标弹幕信息的具体方式可以是：从所述视频文件对应的弹幕文件中，获取在所述第一时间段内、响应于弹幕输入指令而接收的文本信息或语音信息，将获取的文本信息或语音信息作为所述目标弹幕信息。对应地，识别模块1602根据目标弹幕信息与语音信息的语义相似度，确定语音信息所属的意图类型的方式可以是：确定目标弹幕信息与语音信息的语义相似度；若语义相似度符合目标条件，则确定语音信息的意图类型是弹幕输入。

可选地，识别模块1602获取当前播放的视频文件的参数信息的方式还可以是：确定当前时刻所处的第二时间段；获取在所述第二时间段内针对所述视频文件输入的目标语音信息。对应地，识别模块1602根据所述参数信息识别所述语音信息所属的意图类型的方式还可以是：将所述目标语音信息转换为目标文本信息；对所述目标文本信息进行聚类，得到至少两个类别，每个类别具有中心文本信息；若所述语音信息与任意一个中心文本信息的语义相似度符合目标条件，则确定所述语音信息的意图类型为弹幕输入。

可选地，显示模块1603还可以用于实现以下处理中的至少一者：在弹幕中显示中文文本信息；以及在弹幕或视频播放界面中显示中心文本信息对应的表情图像。

可选地，显示模块1603在弹幕中显示语音信息对应的弹幕信息的方式可以是：在弹幕中显示语音信息对应的语音条；或者，在弹幕中显示基于语音信息转换得到的文本信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图17，其示出了本申请实施例提供的一种电子设备1700的结构框图。该电子设备1700可以是图1所示的服务器100或者终端设备200。本申请中的电子设备1700可以包括一个或多个如下部件：处理器1710、存储器1620、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1620中并被配置为由一个或多个处理器1710执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1710可以包括一个或者多个处理核。处理器1710利用各种接口和线路连接整个电子设备1700内的各个部分，通过运行或执行存储在存储器1620内的指令、程序、代码集或指令集，以及调用存储在存储器1620内的数据，执行电子设备1700的各种功能和处理数据。可选地，处理器1710可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1710可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1710中，单独通过一块通信芯片进行实现。

存储器1620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1620可用于存储指令、程序、代码、代码集或指令集。存储器1620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1700在使用中所创建的数据(比如语音信息、文本信息、第一句式、第二句式)等。

可以理解，图17所示的结构仅为示意。电子设备1700还可以包括比图17所示更多、更少或是完全不同的组件。比如，电子设备1700还可以包括音频采集器件、显示单元等。

请参考图18，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1800中存储有程序代码1810，所述程序代码1810可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1800包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1800具有执行上述方法中的任何方法步骤的程序代码1810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种弹幕显示方法，其特征在于，包括：

在视频播放过程中接收输入的语音信息；

识别所述语音信息所属的意图类型，所述意图类型包括弹幕输入或非弹幕输入；

若所述语音信息所属的意图类型为弹幕输入，则在弹幕中显示所述语音信息对应的弹幕信息。

2.根据权利要求1所述的方法，其特征在于，所述识别所述语音信息所属的意图类型，包括：

获取当前播放的视频文件的参数信息；

根据所述参数信息识别所述语音信息所属的意图类型。

3.根据权利要求2所述的方法，其特征在于，所述获取当前播放的视频文件的参数信息，包括：

获取当前播放的视频文件的标识信息；

获取所述标识信息关联的关键词；

所述根据所述参数信息识别所述语音信息所属的意图类型，包括：

将所述语音信息转换为文本信息；

若所述文本信息包括所述关键词，则将所述语音信息的意图类型确定为弹幕输入。

4.根据权利要求3所述的方法，其特征在于，所述将所述语音信息的意图类型确定为弹幕输入，包括：

判断所述文本信息是否符合所述关键词对应的第一句式；

若所述文本信息符合所述第一句式，则将所述语音信息的意图类型确定为弹幕输入。

5.根据权利要求2所述的方法，其特征在于，所述获取当前播放的视频文件的参数信息，包括：

截取当前播放的视频画面；

将所述语音信息转换为文本信息；

若所述文本信息包含目标物体的标识信息，则检测所述当前播放的视频画面中是否存在所述目标物体；

若所述当前播放的视频画面中存在所述目标物体，则将所述语音信息的意图类型确定为弹幕输入。

6.根据权利要求5所述的方法，其特征在于，所述将所述语音信息的意图类型确定为弹幕输入，包括：

判断所述文本信息是否符合所述目标物体的标识信息对应的第二句式；

若所述文本信息符合所述第二句式，则将所述语音信息的意图类型确定为弹幕输入。

7.根据权利要求2所述的方法，其特征在于，所述当前播放的视频文件的参数信息包括当前播放的视频画面，所述根据所述参数信息识别所述语音信息所属的意图类型，还包括：

检测当前播放的视频画面中是否存在文字信息，所述文字信息包括字幕信息和弹幕信息中的至少一者；

若所述当前播放的视频画面中存在文字信息，则获取所述文字信息与所述语音信息的语义相似度；

若所述语义相似度符合目标条件，则确定所述语音信息所属的意图类型为弹幕输入。

8.根据权利要求2所述的方法，其特征在于，所述获取当前播放的视频文件的参数信息，包括：

确定当前时刻所处的第一时间段；

获取在所述第一时间段内针对所述视频文件输入的目标弹幕信息；

根据所述目标弹幕信息与所述语音信息的语义相似度，确定所述语音信息所属的意图类型。

9.根据权利要求8所述的方法，其特征在于，所述获取在所述第一时间段内针对所述视频文件输入的目标弹幕信息，包括：

从所述视频文件对应的弹幕文件中，获取在所述第一时间段内、响应于弹幕输入指令而接收的文本信息或语音信息，将获取的所述文本信息或语音信息作为所述目标弹幕信息；

所述根据所述目标弹幕信息与所述语音信息的语义相似度，确定所述语音信息所属的意图类型，包括：

确定所述目标弹幕信息与所述语音信息的语义相似度；

若所述语义相似度符合目标条件，则确定所述语音信息的意图类型为弹幕输入。

10.根据权利要求2所述的方法，其特征在于，所述获取当前播放的视频文件的参数信息，包括：

确定当前时刻所处的第二时间段；

获取在所述第二时间段内针对所述视频文件输入的目标语音信息；

将所述目标语音信息转换为目标文本信息；

对所述目标文本信息进行聚类，得到至少两个类别，每个类别具有中心文本信息；

若所述语音信息与任意一个中心文本信息的语义相似度符合目标条件，则确定所述语音信息的意图类型为弹幕输入。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括以下步骤中的至少一者：

在弹幕中显示所述中心文本信息；以及

在弹幕中显示与所述中心文本信息对应的表情图像。

12.根据权利要求1-11中任意一项所述的方法，其特征在于，所述在弹幕中显示所述语音信息对应的弹幕信息，包括：

在弹幕中显示所述语音信息对应的语音条；或者，

在弹幕中显示基于所述语音信息转换得到的文本信息。

13.一种弹幕显示装置，其特征在于，包括：

接收模块，用于在视频播放过程中接收输入的语音信息；

识别模块，用于识别所述语音信息所属的意图类型，所述意图类型包括弹幕输入或非弹幕输入；

显示模块，用于当所述语音信息所属的意图类型为弹幕输入时，在弹幕中显示所述语音信息对应的弹幕信息。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-12中任意一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-12中任意一项所述的方法。