CN113705154A

CN113705154A - 基于视频的内容交互方法、装置、计算机设备和存储介质

Info

Publication number: CN113705154A
Application number: CN202110390871.9A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-11-26

Abstract

本申请涉及一种基于视频的内容交互方法、装置、计算机设备和存储介质。所述方法包括：显示视频播放画面，并在所述视频播放画面中显示文本感知入口；响应于对所述文本感知入口的触发操作，进入标记操作状态；响应于在所述标记操作状态下触发的文本标记操作，显示所述视频播放画面中的文本标记区域；在完成文本标记操作后，以用户可感知的内容表达方式，输出与基于所述文本标记区域所识别到的文字相匹配的内容。采用本方法提高交互效率。

Description

基于视频的内容交互方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于视频的内容交互方法、装置、计算机设备和存储介质。

背景技术

随着经济与人工智能的发展，终端设备具有越多越多的功能。越来越多人也通过终端设备观看电影、电视剧、直播等视频。在视频播放画面中，经常会在所播放的视频画面中出现书信、文章、或书籍等各种文本信息，并且这些文本信息对视频内容的理解具有很大的帮助。

对于观看非母语影片的用户，或者是不识字的老年人或儿童而言，无法很好的理解视频播放画面中出现的文本信息。在这种情况下，用户常常需要记录下视频播放画面中的文本，并手动切换至搜索应用搜索该文本的含义，操作复杂繁琐，存在交互效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高交互效率的基于视频的内容交互方法、装置、计算机设备和存储介质。

一种基于视频的内容交互方法，所述方法包括：

显示视频播放画面，并在所述视频播放画面中显示文本感知入口；

响应于对所述文本感知入口的触发操作，进入标记操作状态；

响应于在所述标记操作状态下触发的文本标记操作，显示所述视频播放画面中的文本标记区域；

在完成文本标记操作后，以用户可感知的内容表达方式，输出与基于所述文本标记区域所识别到的文字相匹配的内容。

一种基于视频的内容交互装置，所述装置包括：

输出模块，用于显示视频播放画面，并在所述视频播放画面中显示文本感知入口；

状态进入模块，用于响应于对所述文本感知入口的触发操作，进入标记操作状态；

所述输出模块还用于响应于在所述标记操作状态下触发的文本标记操作，显示所述视频播放画面中的文本标记区域；

所述输出模块还用于在完成文本标记操作后，以用户可感知的内容表达方式，输出与基于所述文本标记区域所识别到的文字相匹配的内容。

在其中一个实施例中，所述输出模块还用于播放视频，并显示所播放视频中的视频播放画面；当发生针对所述视频播放画面的预设检测操作时，暂停所述视频的播放，并在当前所显示的视频播放画面之上显示文本感知入口；所述文本感知入口至少包括文本翻译入口和文本朗读入口中的一种。

在其中一个实施例中，所述输出模块还用于响应于对所述语音控制入口的触发操作，进入语音检测状态；所述状态进入模块还用于当在所述语音检测状态下检测到表征启动文本感知入口的目标语音时，进入标记操作状态。

在其中一个实施例中，所述输出模块还用于在所述标记操作状态下，显示处于可编辑状态的文本标记框；响应于对所述文本标记框的编辑操作，通过所述文本标记框选中所述视频播放画面中出现的文本，得到文本标记区域。

在其中一个实施例中，所述文本标记操作包括滑动操作，所述输出模块还用于当在所述标记操作状态下触发滑动操作时，随着所述滑动操作的持续发生，显示由所述滑动操作持续作用的位置而构成的封闭滑动轨迹；所述封闭滑动轨迹用于确定所述视频播放画面中的文本标记区域。

在其中一个实施例中，所述文本感知入口至少包括文本翻译入口和文本朗读入口中的一种，所述输出模块还用于当触发操作所作用的文本感知入口为文本翻译入口时，在与所述文本标记区域对应的位置处，显示与基于所述文本标记区域所识别到的文字相匹配的翻译文本；当触发操作所作用的文本感知入口为文本朗读入口时，播报与基于所述文本标记区域所识别到的文字相匹配的语音内容。

在其中一个实施例中，所述输出模块还用于显示多个候选语种选项；当发生对所述多个候选语种选项的第一选中操作时，确定所述第一选中操作所选中的第一目标语种；在所述视频播放画面中，与所述文本标记区域并列显示所述翻译文本；所述翻译文本为与基于所述文本标记区域所识别到的文字相匹配的文本，且基于所述文本标记区域所识别到的文字不属于所述第一目标语种，所述翻译文本属于所述第一目标语种。

在其中一个实施例中，所述输出模块还用于显示多个候选语种选项；当发生对所述多个候选语种选项的第二选中操作时，确定所述第二选中操作所选中的第二目标语种；以第二目标语种，播报与基于所述文本标记区域所识别到的文字相匹配的语音内容。

在其中一个实施例中，所述输出模块还用于当所述视频播放画面所在窗口未占用屏幕展示界面的全部区域时，在与所述文本标记区域对应的位置处，显示与基于所述文本标记区域所识别到的文字相匹配的翻译文本；处于所述文本标记区域对应的位置处显示的翻译文本不与所述视频播放画面所在窗口相重叠。

在其中一个实施例中，所述输出模块还用于响应于对所述翻译文本的语音播报操作，以音频的形式播报所述翻译文本。

在其中一个实施例中，所述装置还包括发送模块和接收模块，所述输出模块还用于基于当前所显示的视频播放画面中处于所述文本标记区域内的像素，生成文本标记图像；所述发送模块用于将所述文本标记图像发送至服务器；发送的所述文本标记图像用于指示所述服务器基于所述文本标记图像进行文字识别，并获取与识别到的文字相匹配的内容；所述接收模块用于接收所述服务器返回的与识别到的文字相匹配的内容。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述的方法的步骤。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上述的方法的步骤。

上述基于视频的内容交互方法、装置、计算机设备和存储介质，在进行视频播放的过程中，在视频播放画面中显示文本感知入口。响应于对文本感知入口的触发操作，进入标记操作状态。当在标记操作状态下触发的文本标记操作时，可直接显示视频播放画面中的文本标记区域。该文本标记区域也就是用户想要理解的文字区域。这样，在完成文本标记操作后，可以直接以用户可感知的内容表达方式，输出与该文本标记区域中的文字相匹配的内容。避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率。以用户可感知的内容表达方式输出与视频播放画面中的文本相匹配的内容，可以提供与用户需求更匹配的、更准确的内容交互方式。

一种基于视频的内容交互方法，应用于服务器，所述方法包括：

接收终端发送的文本标记图像；所述文本标记图像是基于文本标记区域生成，所述文本标记区域是通过所述终端在响应于对视频播放画面中的文本感知入口的触发操作后，进入标记操作状态，并响应于在所述标记操作状态下触发的文本标记操作而得到的；

对所述文本标记图像进行文本识别，得到识别出的文字；

确定与识别出的文字相匹配的内容，并将确定的与识别出的文字相匹配的内容反馈至所述终端；反馈的内容用于指示所述终端以用户可感知的内容表达方式，输出所述内容。

一种基于视频的内容交互装置，应用于服务器；所述装置包括：

接收模块，用于接收终端发送的文本标记图像；所述文本标记图像是基于文本标记区域生成，所述文本标记区域是通过所述终端在响应于对视频播放画面中的文本感知入口的触发操作后，进入标记操作状态，并响应于在所述标记操作状态下触发的文本标记操作而得到的；

识别模块，用于对所述文本标记图像进行文本识别，得到识别出的文字；

反馈模块，用于确定与识别出的文字相匹配的内容，并将确定的与识别出的文字相匹配的内容反馈至所述终端；反馈的内容用于指示所述终端以用户可感知的内容表达方式，输出所述内容。

在其中一个实施例中，所述识别模块还用于对所述文本标记图像进行文本检测，查找出文本所在区域图像；对所述文本所在区域图像进行二值化处理，得到二值化区域图像；对所述二值化区域图像进行字符分割，得到各字符，并识别出各所述字符的文字。

在其中一个实施例中，所述文本感知入口至少包括文本翻译入口和文本朗读入口中的一种，所述反馈模块还用于当触发操作所作用的文本感知入口为文本翻译入口时，将识别出的文字发送至翻译服务器，以及接收所述翻译服务器返回的与识别出的文字相匹配的翻译文本，并将所述翻译文本反馈至所述终端；当触发操作所作用的文本感知入口为文本朗读入口时，将识别出的文字发送至语音服务器，以及接收所述语音服务器返回的与识别出的文字相匹配的语音内容，并将所述语音内容反馈至所述终端。

在其中一个实施例中，所述反馈模块还用于在触发操作所作用的文本感知入口为文本翻译入口，并且发生对多个候选语种选项的第一选中操作的情况下，将识别出的文字和所述第一选中操作所选中的第一目标语种发送至翻译服务器；接收所述翻译服务器返回的与识别出的文字相匹配，并且属于所述第一目标语种的翻译文本，并将属于所述第一目标语种的翻译文本反馈至所述终端；所述识别出的文字不属于所述第一目标语种。

在其中一个实施例中，所述反馈模块还用于在触发操作所作用的文本感知入口为文本朗读入口，并且发生对多个候选语种选项的第二选中操作的情况下，将识别出的文字和所述第二选中操作所选中的第二目标语种发送至语音服务器；接收所述语音服务器返回的与所述识别出的文字相匹配、且属于第二目标语种的语音内容，并将所述语音内容反馈至所述终端。

上述基于视频的内容交互方法、装置、计算机设备和存储介质，服务器接收终端发送的文本标记图像后，对文本标记图像进行文本识别，得到识别出的文字，进而可确定与识别出的文字相匹配的内容，并将该内容反馈至终端。那么，终端可以直接以用户可感知的内容表达方式，输出与该文本标记区域中的文字相匹配的内容。避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率。以用户可感知的内容表达方式输出与视频播放画面中的文本相匹配的内容，可以提供与用户需求更匹配的、更准确的内容交互方式。

附图说明

图1为一个实施例中基于视频的内容交互方法的应用环境图；

图2为一个实施例中基于视频的内容交互方法的流程示意图；

图3为另一个实施例中基于视频的内容交互方法的流程示意图；

图4为一个实施例中翻译视频播放画面中文字的流程示意图；

图5为一个实施例中朗读视频播放画面中文字的流程示意图；

图6为一个实施例中视频播放画面的界面示意图；

图7为另一个实施例中基于视频的内容交互方法的流程示意图；

图8为一个实施例中对文本标记图像进行文本识别，得到识别出的文字步骤的流程示意图；

图9为一个实施例中基于视频的内容交互的时序图；

图10为一个实施例中基于视频的内容交互装置的结构框图；

图11为另一个实施例中基于视频的内容交互装置的结构框图；

图12为一个实施例中计算机设备的内部结构图；

图13为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中基于视频的内容交互方法的应用环境图。参照图1，该基于视频的内容交互方法应用于基于视频的内容交互系统100。该基于视频的内容交互系统100包括终端102、服务器104、翻译服务器106和语音服务器108。终端102中的显示界面102-11显示视频播放画面，响应于对文本感知入口102-12的触发操作，将基于文本标记区域102-13生成的文本标记图像发送至服务器104，由服务器104对文本标记图像进行文本识别，得到识别出的文字。其中，文本感知入口102-12包括文本翻译入口和文本朗读入口，即翻译控件和朗读控件。当触发操作所作用的文本感知入口102-12是文本翻译入口，则服务器将识别出的文字发送至翻译服务器106，并接收翻译服务器106返回的翻译文本；当触发操作所作用的文本感知入口102-12是文本朗读入口，则服务器将识别出的文字发送至语音服务器108，并接收语音服务器108返回的语音内容。服务器104将翻译文本和/或语音内容反馈至终端102，以使终端102以用户可感知的内容表达方式，在显示界面102-21中显示翻译文本，和/或播报语音内容。

其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种基于视频的内容交互方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤S202，显示视频播放画面，并在视频播放画面中显示文本感知入口。

视频播放画面是终端所播放的视频在显示界面中显示的画面。可以理解的是，终端所播放的视频包括有多帧图像，多帧图像在显示界面中连续显示时，即显示视频播放画面。其中，终端所播放的视频具体可以包括各种影视视频、直播视频、节目视频或者自媒体视频，但不限于此。

文本感知入口是提供文本感知功能的入口，即在视频播放画面中显示的文本感知功能的选项。文本感知入口可以提供对文本的翻译功能，对文本的朗读功能，对文本的提取功能，对文本的解释功能等，不限于此。

在一种实施方式中，终端的显示界面中显示视频播放画面，并持续在视频播放画面中显示文本感知入口。

在另一种实施方式中，终端的显示界面中显示视频播放画面，当检测到用户对视频播放画面的预设触发操作时，在视频播放画面中显示文本感知入口。其中，预设触发操作可以是对视频播放画面中指定区域的点击操作、滑动操作等。

在另一种实施方式中，终端的显示界面中显示视频播放画面，在视频播放画面中显示菜单选项，当检测到对菜单选项的触发操作时，在视频播放画面中显示文本感知入口。

步骤S204，响应于对文本感知入口的触发操作，进入标记操作状态。

其中，标记操作状态是能够进行标记操作的状态。终端进入标记操作状态后，可以对视频播放画面进行标记操作。可选地，终端进入标记操作状态，可以对视频播放画面中的文本进行标记操作，也可以对视频播放画面中的人像进行标记操作，还可以对视频播放画面中的背景进行标记操作，不限于此。

对文本感知入口的触发操作可以是对文本感知入口的点击操作、滑动操作等，不限于此。

步骤S206，响应于在标记操作状态下触发的文本标记操作，显示视频播放画面中的文本标记区域。

文本标记操作是对文本进行标记的操作。对文本进行标记的操作具体可以是选中视频播放画面中包括有文本的区域，在视频播放画面中显示文本的位置处添加标记，等等。

文本标记区域指的是标记的包括有文本的区域。文本标记区域可以是矩形区域、圆形区域以及不规则区域等，本申请不作限定。

文本标记区域可以是视频播放画面中的一部分区域，也可以是视频播放画面中的全部区域。例如，在视频播放画面所在窗口是小窗、悬浮窗或者分屏状态下的其中一个屏幕界面时，文本标记区域可以是视频播放画面的全部区域，也可以是视频播放画面中所选中的一部分区域。

在一种实施方式中，文本标记操作包括截图操作，当在标记操作状态下触发截图操作时，将显示界面中所截取的视频播放画面的区域作为文本标记区域。步骤S208，在完成文本标记操作后，以用户可感知的内容表达方式，输出与基于文本标记区域所识别到的文字相匹配的内容。

其中，用户可感知的内容表达方式，包括视觉维度的表达方式、听觉维度的表达方式、嗅觉维度的表达方式、或触觉维度的表达方式等。

在一个实施例中，在完成文本标记操作后，终端基于文本标记区域识别出文字，将识别出的文字转换成与该文字相匹配的内容，以用户可感知的内容表达方式，输出与基于文本标记区域所识别到的文字相匹配的内容。

在一种实施方式中，终端采用语音技术将识别出的文字转换成与该文字相匹配的语音内容，播报该语音内容。其中，语音技术可以包括自动语音识别技术(ASR)和语音合成技术(TTS，text-to-speech)以及声纹识别技术。

在另一种实施方式中，终端采用文本翻译技术将识别出的文字转换成与该文字相匹配的翻译文本，显示该翻译文本。

在另一种实施方式中，终端从歌曲数据库中查找识别出的文字相匹配的歌曲，播放该查找到的歌曲。其中，与基于文本标记区域所识别到的文字相匹配的内容可以是视觉内容、听觉内容、嗅觉内容、触觉内容等。其中，视觉内容可以是显示的图像、文本或者设备做出的动作等；听觉内容可以是与文字相匹配的语音，也可以是与文字相匹配的音乐等；嗅觉内容可以是与终端相连接的气味设备散发的气味；触觉内容可以是振动等。

在另一个实施例中，终端将视频播放画面中的文本标记区域发送至服务器；发送的文本标记区域用于指示服务器对文本标记区域中的文字进行文本识别，得到识别出的文字，获取与识别出的文字相匹配的内容，并将该内容反馈至终端。其中，终端发送的文本标记区域包括有文本标记区域在视频播放画面中的位置信息，则服务器可以基于该位置信息确定视频播放画面中的文字，从而对视频播放画面中文本标记区域内的文字进行文本识别。

在另一个实施例中，终端基于视频播放画面中的文本标记区域生成文本标记图像，并将文本标记图像发送至服务器；发送的文本标记图像用于指示服务器对文本标记图像中的文字进行文本识别，得到识别出的文字，获取与识别出的文字相匹配的内容，并将该内容反馈至终端。文本标记图像是视频播放画面中处于文本标记区域内的图像。

在另一个实施例中，终端将基于文本标记区域识别出文字，并将识别出的文字发送至服务器，发送的文字用于指示服务器获取与识别出的文字相匹配的内容，并将该内容反馈至终端。

上述基于视频的内容交互方法，在进行视频播放的过程中，在视频播放画面中显示文本感知入口。响应于对文本感知入口的触发操作，进入标记操作状态。当在标记操作状态下触发的文本标记操作时，可直接显示视频播放画面中的文本标记区域。该文本标记区域也就是用户想要理解的文字区域。这样，在完成文本标记操作后，可以直接以用户可感知的内容表达方式，输出与该文本标记区域中的文字相匹配的内容。避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率。以用户可感知的内容表达方式输出与视频播放画面中的文本相匹配的内容，可以提供与用户需求更匹配的、更准确的内容交互方式。

在一个实施例中，显示视频播放画面，并在视频播放画面中显示文本感知入口，包括：播放视频，并显示所播放视频中的视频播放画面；当发生针对视频播放画面的预设检测操作时，暂停视频的播放，并在当前所显示的视频播放画面之上显示文本感知入口；文本感知入口至少包括文本翻译入口和文本朗读入口中的一种。

其中，文本翻译入口是提供文本翻译功能的入口，是在视频播放画面中显示的文本翻译功能的选项，具体可通过控件实现。文本朗读入口是提供文本朗读功能的入口，是在视频播放画面中显示的文本朗读功能的选项，具体可通过控件实现。

可以理解的是，当发生针对视频播放画面的预设检测操作时，暂停视频的播放，可以在标记操作状态下，更准确地进行文本标记操作，从而更准确地显示视频播放画面中的文本标记区域。

针对视频播放画面的预设检测操作，可以是对视频播放画面的点击操作、滑动操作等。当发生针对视频播放画面的预设检测操作时，暂停视频的播放，并在当前所显示的视频播放画面之上显示文本感知入口。

上述基于视频的内容交互方法，播放视频，并显示所播放视频中的视频播放画面；当发生针对视频播放画面的预设检测操作时，暂停视频的播放，可以在视频暂停播放的情况下显示显示文本感知入口，从而准确地对暂停状态下的视频播放画面进行文本标记操作，得到准确的文本标记区域。

在一个实施例中，视频播放画面中还显示有语音控制入口，响应于对文本感知入口的触发操作，进入标记操作状态，包括：响应于对语音控制入口的触发操作，进入语音检测状态；当在语音检测状态下检测到表征启动文本感知入口的目标语音时，进入标记操作状态。

语音控制入口是指通过语音的交互对视频播放画面进行控制的入口。语音控制入口可以是视频播放画面中的虚拟选项，也可以是终端上的指定物理按键，还可以是与终端相连接的遥控设备上的指定物理按键，不限于此。

语音检测状态是能够进行语音检测的状态。目标语音时表征启动文本感知入口的语音。例如，目标语音可以是“启动文本感知功能”、“翻译文本”、“朗读文本”等。

终端响应于对语音控制入口的触发操作，进入语音检测状态，在语音检测状态下实时检测终端当前环境中的语音，当检测到表征启动文本感知入口的目标语音时，进入标记操作状态。

上述基于视频的内容交互方法，终端响应于对语音控制入口的触发操作，进入语音检测状态，可以在语音检测状态下检测到表征启动文本感知入口的目标语音时，快速地进入标记操作状态，在标记操作状态下显示文本标记区域，从而可以快速地将视频播放画面中的文字以用户可感知的内容表达方式输出。

在一个实施例中，响应于在标记操作状态下触发的文本标记操作，显示视频播放画面中的文本标记区域，包括：在标记操作状态下，显示处于可编辑状态的文本标记框；响应于对文本标记框的编辑操作，通过文本标记框选中视频播放画面中出现的文本，得到文本标记区域。

文本标记框是用于标记出文本的框。文本标记框的形状并不限定，可以是矩形、圆形或者不规则形状等。

文本标记框在可编辑状态下，可以进行编辑操作。其中，对文本标记框进行编辑操作具体可以包括放大、缩小、移动、镜像转换、拉动文本标记框的部分边框，或者拖动等操作。除此之前，还可以控制文本标记框基于用户聚焦点进行移动，或者控制文本标记框基于用户聚焦点进行放大或缩小，等等，本申请对此不作限定。文本标记框还可以处于不可编辑状态，在不可编辑状态下，锁定该文本标记框，不能对该文本标记框进行编辑操作。

例如，在标记操作状态下，显示处于可编辑状态的文本标记框，用户拖动该文本标记框至包括有文字的区域并且松开对文本标记框的拖动时，则终端响应于用户对文本标记框的编辑操作，通过文本标记框选中视频播放画面中出现的文本，得到文本标记区域。

上述基于视频的内容交互方法，在标记操作状态下，终端的显示界面中显示有处于可编辑状态的文本标记框，响应于对文本标记框的编辑操作，可以更准确地通过文本标记框选中视频播放画面中出现的文本，得到文本标记区域。

在一个实施例中，文本标记操作包括滑动操作，响应于在标记操作状态下触发的文本标记操作，显示视频播放画面中的文本标记区域，包括：当在标记操作状态下触发滑动操作时，随着滑动操作的持续发生，显示由滑动操作持续作用的位置而构成的封闭滑动轨迹；封闭滑动轨迹用于确定视频播放画面中的文本标记区域。

滑动操作在持续发生的过程中，终端记录滑动操作持续作用的位置，将本轮滑动操作持续作用的位置构成封闭滑动轨迹。

上述基于视频的内容交互方法，当在标记操作状态下触发滑动操作时，随着滑动操作的持续发生，显示由滑动操作持续作用的位置而构成的封闭滑动轨迹，通过封闭滑动轨迹可以准确地选中视频播放画面中的文本标记区域。

在一个实施例中，在显示由滑动操作持续作用的位置而构成的封闭滑动轨迹之后，还包括：显示撤销按钮，当检测到对该撤销按钮的触发操作时，清除该封闭滑动轨迹。

在一个实施例中，在显示由滑动操作持续作用的位置而构成的封闭滑动轨迹之后，还包括：显示确定按钮，当检测到对该确定按钮的触发操作时，通过该封闭滑动轨迹选中视频播放画面中的文本标记区域，并显示该文本标记区域。

在一个实施例中，文本感知入口至少包括文本翻译入口和文本朗读入口中的一种，在完成文本标记操作后，以用户可感知的内容表达方式，输出与基于文本标记区域所识别到的文字相匹配的内容，包括：当触发操作所作用的文本感知入口为文本翻译入口时，在与文本标记区域对应的位置处，显示与基于文本标记区域所识别到的文字相匹配的翻译文本；当触发操作所作用的文本感知入口为文本朗读入口时，播报与基于文本标记区域所识别到的文字相匹配的语音内容。

文本翻译入口是提供文本翻译功能的入口，是在视频播放画面中显示的文本翻译功能的选项。文本朗读入口是提供文本朗读功能的入口，是在视频播放画面中显示的文本朗读功能的选项。

文本感知入口至少包括文本翻译入口和文本朗读入口中的一种，还可以包括文本歌唱入口、文本提取入口等。

翻译文本是对文本标记区域所识别到的文字进行翻译得到的文本。当触发操作所作用的文本感知入口为文本翻译入口时，表示需要对视频播放画面中所识别到的文字进行翻译，则在与文本标记区域对应的位置处，显示与基于文本标记区域所识别到的文字相匹配的翻译文本。其中，与文本标记区域对应的位置可以根据需要进行设置。例如，与文本标记区域对应的位置可以是文本标记区域，即将翻译文本覆盖在文字标记区域的文字之上，也可以是文本标记区域周围的区域，不限于此。

在一种实施方式中，当触发操作所作用的文本感知入口为文本翻译入口时，在与文本标记区域对应的位置处，显示与基于文本标记区域所识别到的文字相匹配，并且属于默认语种的翻译文本。其中，默认语种可以根据需要预先进行设置。例如，默认语种可以是中文、英文等。

当触发操作所作用的文本感知入口为文本朗读入口时，表示需要对视频播放画面中所识别到的文字进行朗读，则播报与基于文本标记区域所识别到的文字相匹配的语音内容。

进一步地，终端采用预先设置的声音播报与基于文本标记区域所识别到的文字相匹配的语音内容。预先设置的声音可以是男声，也可以是女声；可以是某个名人的声音，也可以是用户录入的声音，不限于此。

上述基于视频的内容交互方法，当触发操作所作用的文本感知入口为文本翻译入口时，在与文本标记区域对应的位置处，显示与基于文本标记区域所识别到的文字相匹配的翻译文本；当触发操作所作用的文本感知入口为文本朗读入口时，播报与基于文本标记区域所识别到的文字相匹配的语音内容。这样，可以直接以用户可感知的显示方式或者语音播报方式，输出与该文本标记区域中的文字相匹配的内容。避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率。以用户可感知的显示方式或者语音播报方式显示翻译文本或者播报语音内容，可以提供与用户需求更匹配的、更准确的内容交互方式，也可以解决用户看不懂国外文字、用户看不清楚视频播放画面中的文字的问题。

在一个实施例中，如图3所示，当触发操作所作用的文本感知入口为文本翻译入口时，在进入标记操作状态之前，方法还包括：

步骤S302，显示多个候选语种选项。

候选语种选项是候选的能够进行转换的语种的选项。候选语种选项至少包括中文、粤语、英语、法语、德语、日语、韩语等。

步骤S304，当发生对多个候选语种选项的第一选中操作时，确定第一选中操作所选中的第一目标语种。

第一选中操作指的是对多个候选语种选项进行选中并且用于翻译的操作。第一目标语种指的是对多个候选语种选项进行第一选中操作所选中的语种。第一目标语种的数量可以是一个，可以是多个。

在与文本标记区域对应的位置处，显示与基于文本标记区域所识别到的文字相匹配的翻译文本，包括：

步骤S306，在视频播放画面中，与文本标记区域并列显示翻译文本；翻译文本为与基于文本标记区域所识别到的文字相匹配的文本，且基于文本标记区域所识别到的文字不属于第一目标语种，翻译文本属于第一目标语种。

在视频播放画面中，显示翻译文本的区域与文本标记区域并列，可以在上下方向上并列，也可以在左右方向上并列。

当第一目标语种的数量是一个时，在视频播放画面中，直接与文本标记区域并列显示属于第一目标语种的翻译文本。当第一目标语种的数量是多个时，在视频播放画面中，可以在文本标记区域的周围区域并列显示各第一目标语种的翻译文本，也可以在文本标记区域的周围区域，每间隔预设时长依次显示各第一目标语种的翻译文本。其中，预设时长可以根据需要进行设置。例如，预设时长可以是1分钟，30秒等。

上述基于视频的内容交互方法，显示多个候选语种选项，当发生对多个候选语种选项的第一选中操作时，确定第一选中操作所选中的第一目标语种，在视频播放画面中，可以准确地显示与视频播放画面中的文本相匹配，并且属于第一目标语种的翻译文本。

图4为一个实施例中翻译视频播放画面中文字的流程示意图。终端执行步骤S402，选择翻译(中文)，即触发操作所作用的文本感知入口为文本翻译入口，并且对多个候选语种选项的第一选中操作所选中的第一目标语种为中文。终端进入标记操作状态，执行步骤S404，生成矩形框，用户拖动矩形框，框中文字内容，矩形框即文本标记区域，响应于用户拖动矩形框所框中的文字内容，显示视频播放画面中的矩形框，即视频播放画面中文本标记区域。终端在完成文本标记操作后，执行步骤S406，识别矩形框中的文字内容，请求翻译文本。终端接收到翻译文本，执行步骤S408，展示翻译文本，即以用户可感知的内容表达方式输出与基于文本标记区域所识别到的文字相匹配的翻译文本。

在一个实施例中，当触发操作所作用的文本感知入口为文本朗读入口时，在进入标记操作状态之前，方法还包括：显示多个候选语种选项；当发生对多个候选语种选项的第二选中操作时，确定第二选中操作所选中的第二目标语种；播报与基于文本标记区域所识别到的文字相匹配的语音内容，包括：以第二目标语种，播报与基于文本标记区域所识别到的文字相匹配的语音内容。

第二选中操作指的是对多个候选语种选项进行选中并且用于朗读的操作。第二目标语种指的是对多个候选语种选项进行第二选中操作所选中的语种。第二目标语种的数量可以是一个，可以是多个。

当第二目标语种的数量是一个时，在视频播放画面中，直接以第二目标语种，播报与基于文本标记区域所识别到的文字相匹配的语音内容。当第二目标语种的数量是多个时，依次按照各第二目标语种的顺序，播报与基于文本标记区域所识别到的文字相匹配的语音内容。

上述基于视频的内容交互方法，显示多个候选语种选项，当发生对多个候选语种选项的第二选中操作时，确定第二选中操作所选中的第二目标语种，从而能够准确地以第二目标语种，播报与基于文本标记区域所识别到的文字相匹配的语音内容。

图5为一个实施例中朗读视频播放画面中文字的流程示意图。终端执行步骤S502，选择朗读(中文)，即触发操作所作用的文本感知入口为文本朗读入口，并且对多个候选语种选项的第二选中操作所选中的第二目标语种为中文。终端进入标记操作状态，执行步骤S504，生成矩形框，用户拖动矩形框，框中文字内容，矩形框即文本标记区域，响应于用户拖动矩形框所框中的文字内容，显示视频播放画面中的矩形框，即视频播放画面中文本标记区域。终端在完成文本标记操作后，执行步骤S506，识别矩形框中的文字内容，请求语音内容。终端接收到语音内容，执行步骤S508，播报语音内容，即以用户可感知的内容表达方式输出与基于文本标记区域所识别到的文字相匹配的语音内容。

图6为一个实施例中视频播放画面的界面示意图。终端显示视频播放画面，并在视频播放画面中显示文本感知入口602和多个候选语种选项604；其中，文本感知入口602包括文本翻译入口和文本朗读入口，多个候选语种选项604包括中文、粤语和英文。当触发操作所作用的文本感知入口602为文本翻译入口，并且发生对多个候选语种选项604的第一选中操作时，在视频播放画面中，与文本标记区域606并列显示属于第一目标语种的翻译文本。当触发操作所作用的文本感知入口602为文本朗读入口，并且发生对多个候选语种选项604的第二选中操作时，以第二目标语种，播报与基于文本标记区域606所识别到的文字相匹配的语音内容。

在一个实施例中，在与文本标记区域对应的位置处，显示与基于文本标记区域所识别到的文字相匹配的翻译文本，包括：当视频播放画面所在窗口未占用屏幕展示界面的全部区域时，在与文本标记区域对应的位置处，显示与基于文本标记区域所识别到的文字相匹配的翻译文本；处于文本标记区域对应的位置处显示的翻译文本不与视频播放画面所在窗口相重叠。

当视频播放画面所在窗口是小窗或者悬浮窗时，视频播放画面所在窗口未占用屏幕展示界面的全部区域，则在全部区域中除视频播放画面所在窗口之外的空白区域中显示与基于文本标记区域所识别到的文字相匹配的翻译文本。其中，处于文本标记区域对应的位置处即空白区域，在空白区域中显示的翻译文本不与视频播放画面所在窗口相重叠，可以针对视频播放画面中的文本标记区域进行翻译，避免翻译文本对视频播放画面的影响，从而提高视频播放的流畅度。

在一个实施例中，上述方法还包括：响应于对翻译文本的语音播报操作，以音频的形式播报翻译文本。

在翻译文本的指定位置处显示语音播报入口，当检测到对语音播报入口的触发操作时，即对翻译文本的语音播报操作，响应于对翻译文本的语音播报操作，获取翻译文本的音频内容，输出该音频内容，以音频的形式播报翻译文本，可以在显示翻译文本的基础上，提高用户与视频之间进行内容交互的多样性。

在一个实施例中，显示视频播放画面中的文本标记区域之后，上述方法还包括：基于当前所显示的视频播放画面中处于文本标记区域内的像素，生成文本标记图像；将文本标记图像发送至服务器；发送的文本标记图像用于指示服务器基于文本标记图像进行文字识别，并获取与识别到的文字相匹配的内容；接收服务器返回的与识别到的文字相匹配的内容。

文本标记图像是视频播放画面中处于文本标记区域内的图像。当文本标记区域是视频播放画面的部分区域时，则文本标记图像为视频播放画面的区域图像；当文本标记区域是视频播放画面的全部区域时，则文本标记图像为视频播放画面的整张图像。

终端提取当前所显示的视频播放画面中处于文本标记区域内的像素，生成文本标记图像，即对文本标记区域内的视频播放画面进行截图，得到文本标记图像。

终端和服务器通过网络进行通信，终端将文本标记图像通过网络发送至服务器。服务器接收到该文本标记图像后，对该文本标记图像进行文字识别，并获取与识别到的文字相匹配的内容，将该与识别到的文字相匹配的内容发送至终端。

上述基于视频的内容交互方法，基于当前所显示的视频播放画面中处于文本标记区域内的像素，生成文本标记图像，将文本标记图像发送至服务器，可以在服务器中完成文字识别等对算力要求较高的操作，减轻终端的数据处理压力，从而更快速地实现视频交互。

在另一个实施例中，显示视频播放画面中的文本标记区域之后，上述方法还包括：基于当前所显示的视频播放画面中处于文本标记区域内的像素，生成文本标记图像；基于文本标记图像进行文字识别，并获取与识别到的文字相匹配的内容。

可以理解的是，终端可以直接对文本标记图像进行文字识别，从而获取与识别到的文字相匹配的内容，减少了与服务器之间的数据交互流程，节约了终端的资源。

在一个实施例中，应用于计算机设备中，该基于视频的内容交互方法包括以下步骤：

步骤1：播放视频，并显示所播放视频中的视频播放画面；当发生针对视频播放画面的预设检测操作时，暂停视频的播放，并在当前所显示的视频播放画面之上显示文本感知入口；文本感知入口至少包括文本翻译入口和文本朗读入口中的一种；视频播放画面中还显示有语音控制入口。当检测到对文本感知入口的触发操作，执行步骤2A；当检测到对语音控制入口的触发操作，执行步骤2B。

步骤2A：当触发操作所作用的文本感知入口为文本翻译入口时，显示多个候选语种选项；当发生对多个候选语种选项的第一选中操作时，确定第一选中操作所选中的第一目标语种；当触发操作所作用的文本感知入口为文本翻译入口时，显示多个候选语种选项；当发生对多个候选语种选项的第二选中操作时，确定第二选中操作所选中的第二目标语种；进入标记操作状态。终端执行步骤3A或步骤3B。

步骤2B：响应于对语音控制入口的触发操作，进入语音检测状态；当在语音检测状态下检测到表征启动文本感知入口的目标语音时；进入标记操作状态。终端执行步骤3A或步骤3B。

步骤3A：在标记操作状态下，显示处于可编辑状态的文本标记框；响应于对文本标记框的编辑操作，通过文本标记框选中视频播放画面中出现的文本，得到文本标记区域。终端执行步骤4。

步骤3B：文本标记操作包括滑动操作，当在标记操作状态下触发滑动操作时，随着滑动操作的持续发生，显示由滑动操作持续作用的位置而构成的封闭滑动轨迹；封闭滑动轨迹用于确定视频播放画面中的文本标记区域。终端执行步骤4。

步骤4：将文本标记图像发送至服务器；发送的文本标记图像用于指示服务器基于文本标记图像进行文字识别，并获取与识别到的文字相匹配的内容。

步骤5：终端接收服务器返回的与识别到的文字相匹配的内容，在触发操作所作用的文本感知入口为文本翻译入口的情况下，执行步骤6A或步骤6B；当触发操作所作用的文本感知入口为文本朗读入口时，执行步骤8。

步骤6A：在视频播放画面中，与文本标记区域并列显示翻译文本；翻译文本为与基于文本标记区域所识别到的文字相匹配的文本，且基于文本标记区域所识别到的文字不属于第一目标语种，翻译文本属于第一目标语种。终端执行步骤7。

步骤6B：当视频播放画面所在窗口未占用屏幕展示界面的全部区域时，在与文本标记区域对应的位置处，显示与基于文本标记区域所识别到的文字相匹配的翻译文本；处于文本标记区域对应的位置处显示的翻译文本不与视频播放画面所在窗口相重叠。终端执行步骤7。

步骤7：响应于对翻译文本的语音播报操作，以音频的形式播报翻译文本。

步骤8：以第二目标语种，播报与基于文本标记区域所识别到的文字相匹配的语音内容。

上述基于视频的内容交互方法，终端显示视频播放画面，并在视频播放画面中显示文本感知入口；当触发操作所作用的文本感知入口为文本翻译入口，并且从多个候选语种选项选中第一目标语种时，获取基于文本标记区域内的像素生成的文本标记图像，并将文本标记图像和第一目标语种发送至服务器，再接收服务器返回的属于第一目标语种的翻译文本，则终端以用户可感知的内容表达方式，即显示属于第一目标语种的翻译文本，避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率，也解决了用户看不懂国外文字的问题。

当触发操作所作用的文本感知入口为文本朗读入口，并且从多个候选语种选项选中第二目标语种时，获取基于文本标记区域内的像素生成的文本标记图像，并将文本标记图像和第二目标语种发送至服务器，再接收服务器返回的属于第二目标语种的语音内容，则终端以用户可感知的内容表达方式，即播报属于第二目标语种的语音内容，避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率，也解决了用户看不清楚视频播放画面中的文字的问题。

在一个实施例中，如图7所示，提供了一种基于视频的内容交互方法，应用于服务器，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。基于视频的内容交互方法包括以下步骤：

步骤S702，接收终端发送的文本标记图像；文本标记图像是基于文本标记区域生成，文本标记区域是通过终端在响应于对视频播放画面中的文本感知入口的触发操作后，进入标记操作状态，并响应于在标记操作状态下触发的文本标记操作而得到的。

终端显示播放画面，并在视频播放画面中显示文本感知入口，则响应于对文本感知入口的触发操作，进入标记操作状态，响应于在标记操作状态下触发的文本标记操作，得到视频播放画面中的文本标记区域，基于文本标记区域生成文本标记图像。文本标记图像也即视频播放画面中文本标记区域的截图。

步骤S704，对文本标记图像进行文本识别，得到识别出的文字。

服务器接收终端发送的文本标记图像，可以先对文本标记图像进行检测，判断文本标记图像中是否包括有文字，当确定文本标记图像中包括有文字时，对文本标记图像进行文本识别，得到识别出的文字；当确定文本标记图像中未包括有文字时，则不对文本标记图像进行文本识别，节约服务器的资源。

在一种实施方式中，服务器可以采用人工智能技术对文本标记图像进行文本识别，得到识别出的文字。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在另一种实施方式中，服务器可以采用OCR(Optical Character Recognition，光学字符识别)技术对文本标记图像进行文本识别，得到识别出的文字。

步骤S706，确定与识别出的文字相匹配的内容，并将确定的与识别出的文字相匹配的内容反馈至终端；反馈的内容用于指示终端以用户可感知的内容表达方式，输出内容。

服务器确定与识别出的文字相匹配的内容，该内容可以是用于显示的图像，可以是用于播报的语音等，并将确定的与识别出的文字相匹配的内容反馈至终端。终端接收到与识别出的文字相匹配的内容，则以用户可感知的内容表达方式，输出内容。

上述基于视频的内容交互方法，服务器接收终端发送的文本标记图像后，对文本标记图像进行文本识别，得到识别出的文字，进而可确定与识别出的文字相匹配的内容，并将该内容反馈至终端。那么，终端可以直接以用户可感知的内容表达方式，输出与该文本标记区域中的文字相匹配的内容。避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率。以用户可感知的内容表达方式输出与视频播放画面中的文本相匹配的内容，可以提供与用户需求更匹配的、更准确的内容交互方式。

在一个实施例中，对文本标记图像进行文本识别，得到识别出的文字，包括：对文本标记图像进行文本检测，查找出文本所在区域图像；对文本所在区域图像进行二值化处理，得到二值化区域图像；对二值化区域图像进行字符分割，得到各字符，并识别出各字符的文字。

服务器采用快速卷积神经网络(Faster RCNN)模型对文本标记图像进行文本检测，查找出文本所在区域图像。具体地，快速卷积神经网络模型包括有多个卷积层和池化层，通过多个卷积层对文本标记图像进行卷积处理，得到多个候选区域图像；再通过池化层对各候选区域图像进行池化处理，从各候选区域图像中查找出文本所在区域图像。通过池化层对各候选区域图像进行池化处理，还可以得到文本所在区域图像在文本标记图像中的位置。

文本所在区域图像是文本标记图像中文本所在的区域构成的图像。文本所在区域图像可以是多行文字构成的图像，也可以单行文字构成的图像，即文字行图像，不限于此。

可以理解的是，在文本标记图像中不仅包括有文本，还通常包括有背景区域。服务器对文本标记图像进行文本检测，查找出文本所在区域图像，可以避免对文本标记图像中与文本无关的区域图像进行处理，节约服务器的处理资源。

二值化是将文本所在区域图像上的像素点的灰度值设置为0或255，也就是将整个文本所在区域图像呈现出明显的黑白效果的过程。二值化区域图像是各像素点的灰度值为0或255的图像。

服务器对文本所在区域图像进行二值化处理，可以将字符所在的像素点的灰度值设置为0和255的其中一个，则不属于字符所在的像素点的灰度值设置为0和255中的另外一个。例如，字符所在的像素点的灰度值设置为0，则不属于字符所在的像素点的灰度值设置为255；字符所在的像素点的灰度值设置为255，则不属于字符所在的像素点的灰度值设置为0。

服务器对二值化区域图像进行字符分割，得到各字符。具体地，服务器计算二值化区域图像中文字行的行高，当作文字行的平均字符高度和平均字符宽度；将文字行的二值化区域图像投影至与文字行排列方向相平行的投影轴上；将投影轴上未被投影的位置设置为候选切分点；若相邻的候选切分点之间的字符区间达到平均字符宽度的预设倍数，则分割出该字符区间；再从各字符区间中查找新的候选切分点，再按照新的候选切分点对字符区间进行字符分割，得到新的字符区间，直到新的字符区间中未查找到新的候选切分点，则将每个新的字符区间作为字符。

其中，当文字行排列方向为从左向右进行排列时，则投影轴为水平方向的X轴；当文字行排列方向为从上向下进行排列时，则投影轴为竖直方向的Y轴。预设倍数可以根据需要进行设置。例如预设倍数可以是0.8。

上述基于视频的内容交互方法，服务器对文本标记图像进行文本检测，查找出文本所在区域图像；对文本所在区域图像进行二值化处理，得到二值化区域图像；对二值化区域图像进行字符分割，得到各字符，可以准确地识别出各字符的文字。

在一个实施例中，对文本标记图像进行文本检测，查找出文本所在区域图像之前，还包括：对文本标记图像进行预处理操作，得到预处理后的文本标记图像；再对预处理后的文本标记图像进行文本检测。其中，预处理操作包括图像平滑处理、版面分析处理以及倾斜度校正处理。预处理操作还可以包括裁剪处理、缩放处理等。

在一个实施例中，识别出各字符的文字之后，还包括：根据上下文利用语言句法约束关系，对识别出各字符的文字进行后处理，得到后处理的文字，再确定与后处理的文字相匹配的内容。

图8为一个实施例中对文本标记图像进行文本识别，得到识别出的文字步骤的流程示意图。服务器执行步骤S802，对文本标记图像进行预处理操作，得到预处理后的文本标记图像；执行步骤S804，对预处理后的文本标记图像进行文本检测，查找出文本所在区域图像；执行步骤S806，对文本所在区域图像进行二值化处理，得到二值化区域图像；执行步骤S808，对二值化区域图像进行字符分割，得到各字符；执行步骤S810，识别出各字符的文字；执行步骤S812，对识别出各字符的文字进行后处理，得到后处理的文字。

在一个实施例中，文本感知入口至少包括文本翻译入口和文本朗读入口中的一种，确定与识别出的文字相匹配的内容，并将确定的与识别出的文字相匹配的内容反馈至终端，包括：当触发操作所作用的文本感知入口为文本翻译入口时，将识别出的文字发送至翻译服务器，以及接收翻译服务器返回的与识别出的文字相匹配的翻译文本，并将翻译文本反馈至终端；当触发操作所作用的文本感知入口为文本朗读入口时，将识别出的文字发送至语音服务器，以及接收语音服务器返回的与识别出的文字相匹配的语音内容，并将语音内容反馈至终端。

其中，翻译服务器是用于对文本进行翻译的服务器。语音服务器是用于将文本转换为语音的服务器。

具体地，当终端中触发操作所作用的文本感知入口为文本翻译入口时，终端将文本标记图像和翻译指令发送至服务器。服务器接收文本标记图像和翻译指令，对文本标记图像进行文本识别，得到识别出的文字，再将识别出的文字发送至翻译指令对应的翻译服务器。翻译服务器接收到识别出的文字，可以翻译出该文字相匹配的翻译文本，并将翻译文本返回至服务器。服务器再将翻译文本反馈至终端。

具体地，当终端中触发操作所作用的文本感知入口为文本朗读入口时，终端将文本标记图像和朗读指令发送至服务器。服务器接收文本标记图像和朗读指令，对文本标记图像进行文本识别，得到识别出的文字，再将识别出的文字发送至朗读指令对应的语音服务器。语音服务器接收到识别出的文字，采用语音技术将该文字转换为相匹配的语音内容，并将语音内容返回至服务器。服务器再将语音内容反馈至终端。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS，text-to-speech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

上述基于视频的内容交互方法，当触发操作所作用的文本感知入口为文本翻译入口时，将识别出的文字发送至翻译服务器，以及接收翻译服务器返回的与识别出的文字相匹配的翻译文本，并将翻译文本反馈至终端；当触发操作所作用的文本感知入口为文本朗读入口时，将识别出的文字发送至语音服务器，以及接收语音服务器返回的与识别出的文字相匹配的语音内容，并将语音内容反馈至终端，则终端能够以用户可感知的显示方式或者语音播报方式输出视频播放画面中的文字，避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率，也可以解决用户看不懂国外文字、用户看不清楚视频播放画面中的文字的问题。

在一个实施例中，当触发操作所作用的文本感知入口为文本翻译入口时，将识别出的文字发送至翻译服务器，以及接收翻译服务器返回的与识别出的文字相匹配的翻译文本，并将翻译文本反馈至终端，包括：在触发操作所作用的文本感知入口为文本翻译入口，并且发生对多个候选语种选项的第一选中操作的情况下，将识别出的文字和第一选中操作所选中的第一目标语种发送至翻译服务器；接收翻译服务器返回的与识别出的文字相匹配，并且属于第一目标语种的翻译文本，并将属于第一目标语种的翻译文本反馈至终端；识别出的文字不属于第一目标语种。

第一选中操作指的是对多个候选语种选项进行选中并且用于翻译的操作。第一目标语种指的是对多个候选语种选项进行第一选中操作所选中的语种。

在触发操作所作用的文本感知入口为文本翻译入口，并且发生对多个候选语种选项的第一选中操作的情况下，表示需要将视频播放画面中的文本翻译至第一选中操作所选中的第一目标语种，则将识别出的文字和第一目标语种发送至翻译服务器；接收翻译服务器返回的与识别出的文字相匹配，并且属于第一目标语种的翻译文本，并将属于第一目标语种的翻译文本反馈至终端，则终端可以准确地显示与视频播放画面中的文本相匹配，并且属于第一目标语种的翻译文本。

在一个实施例中，当触发操作所作用的文本感知入口为文本朗读入口时，将识别出的文字发送至语音服务器，以及接收语音服务器返回的与识别出的文字相匹配的语音内容，并将语音内容反馈至终端，包括：在触发操作所作用的文本感知入口为文本朗读入口，并且发生对多个候选语种选项的第二选中操作的情况下，将识别出的文字和第二选中操作所选中的第二目标语种发送至语音服务器；接收语音服务器返回的与识别出的文字相匹配、且属于第二目标语种的语音内容，并将语音内容反馈至终端。

第二选中操作指的是对多个候选语种选项进行选中并且用于朗读的操作。第二目标语种指的是对多个候选语种选项进行第二选中操作所选中的语种。

语音服务器也可以提供翻译功能，用于对文本进行翻译。语音服务器接收到识别出的文字和第二目标语种，先将识别出的文字翻译为属于第二目标语种的文字，再将第二目标语种的文字转换为语音内容，并将语音内容反馈至服务器。

在触发操作所作用的文本感知入口为文本朗读入口，并且发生对多个候选语种选项的第二选中操作的情况下，将识别出的文字和第二选中操作所选中的第二目标语种发送至语音服务器；接收语音服务器返回的与识别出的文字相匹配、且属于第二目标语种的语音内容，并将语音内容反馈至终端，则终端能够准确地以第二目标语种，播报与基于文本标记区域所识别到的文字相匹配的语音内容。

在另一个实施例中，服务器先将识别出的文字和第二目标语种发送至翻译服务器；接收翻译服务器返回的与识别出的文字相匹配、且属于第二目标语种的翻译文本，并将属于第二目标语种的翻译文本发送至语音服务器，接收语音服务器返回的与属于第二目标语种的翻译文本相匹配的语音内容，并将语音内容反馈至终端。

在一个实施例中，应用于服务器中，该基于视频的内容交互方法包括以下步骤：

步骤1：接收终端发送的文本标记图像；文本标记图像是基于文本标记区域生成，文本标记区域是通过终端在响应于对视频播放画面中的文本感知入口的触发操作后，进入标记操作状态，并响应于在标记操作状态下触发的文本标记操作而得到的；文本感知入口至少包括文本翻译入口和文本朗读入口中的一种。

步骤2：对文本标记图像进行文本检测，查找出文本所在区域图像；对文本所在区域图像进行二值化处理，得到二值化区域图像；对二值化区域图像进行字符分割，得到各字符，并识别出各字符的文字。

步骤3：在终端中触发操作所作用的文本感知入口为文本翻译入口，并且发生对多个候选语种选项的第一选中操作的情况下，执行步骤4A；在终端中触发操作所作用的文本感知入口为文本朗读入口，并且发生对多个候选语种选项的第二选中操作的情况下，执行步骤4B。

步骤4A：将识别出的文字和第一选中操作所选中的第一目标语种发送至翻译服务器；接收翻译服务器返回的与识别出的文字相匹配，并且属于第一目标语种的翻译文本，并将属于第一目标语种的翻译文本反馈至终端；识别出的文字不属于第一目标语种。

步骤4B：将识别出的文字和第二选中操作所选中的第二目标语种发送至语音服务器；接收语音服务器返回的与识别出的文字相匹配、且属于第二目标语种的语音内容，并将语音内容反馈至终端。

上述基于视频的内容交互方法，服务器接收终端发送的文本标记图像，可以对文本标记图像进行文本识别，准确地识别出文字；在终端中触发操作所作用的文本感知入口为文本翻译入口，并且发生对多个候选语种选项的第一选中操作的情况下，将识别出的文字和第一选中操作所选中的第一目标语种发送至翻译服务器，再接收翻译服务器返回的与识别出的文字相匹配，并且属于第一目标语种的翻译文本，并将属于第一目标语种的翻译文本反馈至终端，则终端能够以用户可感知的内容表达方式输出视频播放画面中的文字，即显示属于第一目标语种的翻译文本，避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率，也解决了用户看不懂国外文字的问题。

在终端中触发操作所作用的文本感知入口为文本朗读入口，并且发生对多个候选语种选项的第二选中操作的情况下，将识别出的文字和第二选中操作所选中的第二目标语种发送至语音服务器；接收语音服务器返回的与识别出的文字相匹配、且属于第二目标语种的语音内容，并将语音内容反馈至终端，则终端能够以用户可感知的内容表达方式输出视频播放画面中的文字，即播报属于第二目标语种的语音内容，避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率，也解决了用户看不清楚视频播放画面中的文字的问题。

图9为一个实施例中基于视频的内容交互的时序图。终端响应于选中的翻译功能或朗读功能，将视频播放画面中基于文本标记区域生成的文本标记图像发送至服务器。服务器接收到文本标记图像，识别文本标记图像中的文字；当终端选中的是朗读功能，则将文字发送至语音服务器，请求语音内容；当终端选中的是翻译功能，则将文字发送至翻译服务器，请求翻译文本。语音服务器将接收的文字转换成语音内容，并将语音内容返回至服务器。翻译服务器将接收的文字转换成翻译文本，并将翻译文本返回至服务器。服务器接收到语音内容或者翻译文本，并将语音内容或者翻译文本反馈至终端。则终端以用户可感知的内容表达方式，显示翻译文本或者播报语音内容。

本发明实施例涉及的系统可以是由客户端、多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，分布式系统应用于区块链系统的一个可选的结构，由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

区块链系统中各节点涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。例如，服务器节点与终端节点之间进行通信，服务器节点可以将视频发送至终端节点，终端节点可以接收该视频，并播放该视频。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。例如，服务器节点可以记录终端播放视频的历史位置，在下次播放该视频时自动跳转至该历史位置。又如，服务器节点可以更安全地保存终端的登录用户所上传的个人信息等。

应该理解的是，虽然图2至图5、图7和图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图5、图7和图8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种基于视频的内容交互装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：输出模块1002和状态进入模块1004，其中：

输出模块1002，用于显示视频播放画面，并在视频播放画面中显示文本感知入口；

状态进入模块1004，用于响应于对文本感知入口的触发操作，进入标记操作状态；

输出模块1002还用于响应于在标记操作状态下触发的文本标记操作，显示视频播放画面中的文本标记区域；

输出模块1002还用于在完成文本标记操作后，以用户可感知的内容表达方式，输出与基于文本标记区域所识别到的文字相匹配的内容。

上述基于视频的内容交互装置，在进行视频播放的过程中，在视频播放画面中显示文本感知入口。响应于对文本感知入口的触发操作，进入标记操作状态。当在标记操作状态下触发的文本标记操作时，可直接显示视频播放画面中的文本标记区域。该文本标记区域也就是用户想要理解的文字区域。这样，在完成文本标记操作后，可以直接以用户可感知的内容表达方式，输出与该文本标记区域中的文字相匹配的内容。避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率。以用户可感知的内容表达方式输出与视频播放画面中的文本相匹配的内容，可以提供与用户需求更匹配的、更准确的内容交互方式。

在一个实施例中，上述输出模块1002还用于播放视频，并显示所播放视频中的视频播放画面；当发生针对视频播放画面的预设检测操作时，暂停视频的播放，并在当前所显示的视频播放画面之上显示文本感知入口；文本感知入口至少包括文本翻译入口和文本朗读入口中的一种。

在一个实施例中，上述输出模块1002还用于在视频播放画面中显示有语音控制入口，上述状态进入模块1004还用于响应于对语音控制入口的触发操作，进入语音检测状态；当在语音检测状态下检测到表征启动文本感知入口的目标语音时，进入标记操作状态。

在一个实施例中，上述输出模块1002还用于在标记操作状态下，显示处于可编辑状态的文本标记框；响应于对文本标记框的编辑操作，通过文本标记框选中视频播放画面中出现的文本，得到文本标记区域。

在一个实施例中，上述输出模块1002还用于当在标记操作状态下触发滑动操作时，随着滑动操作的持续发生，显示由滑动操作持续作用的位置而构成的封闭滑动轨迹；封闭滑动轨迹用于确定视频播放画面中的文本标记区域。

在一个实施例中，文本感知入口至少包括文本翻译入口和文本朗读入口中的一种，上述输出模块1002还用于当触发操作所作用的文本感知入口为文本翻译入口时，在与文本标记区域对应的位置处，显示与基于文本标记区域所识别到的文字相匹配的翻译文本；当触发操作所作用的文本感知入口为文本朗读入口时，播报与基于文本标记区域所识别到的文字相匹配的语音内容。

在一个实施例中，上述输出模块1002还用于显示多个候选语种选项；当发生对多个候选语种选项的第一选中操作时，确定第一选中操作所选中的第一目标语种；在视频播放画面中，与文本标记区域并列显示翻译文本；翻译文本为与基于文本标记区域所识别到的文字相匹配的文本，且基于文本标记区域所识别到的文字不属于第一目标语种，翻译文本属于第一目标语种。

在一个实施例中，上述输出模块1002还用于显示多个候选语种选项；当发生对多个候选语种选项的第二选中操作时，确定第二选中操作所选中的第二目标语种；以第二目标语种，播报与基于文本标记区域所识别到的文字相匹配的语音内容。

在一个实施例中，上述输出模块1002还用于当视频播放画面所在窗口未占用屏幕展示界面的全部区域时，在与文本标记区域对应的位置处，显示与基于文本标记区域所识别到的文字相匹配的翻译文本；处于文本标记区域对应的位置处显示的翻译文本不与视频播放画面所在窗口相重叠。

在一个实施例中，上述输出模块1002还用于响应于对翻译文本的语音播报操作，以音频的形式播报翻译文本。

在一个实施例中，上述输出模块1002还用于基于当前所显示的视频播放画面中处于文本标记区域内的像素，生成文本标记图像；上述装置还包括发送模块，用于将文本标记图像发送至服务器；发送的文本标记图像用于指示服务器基于文本标记图像进行文字识别，并获取与识别到的文字相匹配的内容；上述装置还包括接收模块，用于接收服务器返回的与识别到的文字相匹配的内容。

在一个实施例中，如图11所示，提供了一种基于视频的内容交互装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：接收模块1102、识别模块1104和反馈模块1106，其中：

接收模块1102，用于接收终端发送的文本标记图像；文本标记图像是基于文本标记区域生成，文本标记区域是通过终端在响应于对视频播放画面中的文本感知入口的触发操作后，进入标记操作状态，并响应于在标记操作状态下触发的文本标记操作而得到的。

识别模块1104，用于对文本标记图像进行文本识别，得到识别出的文字。

反馈模块1106，用于确定与识别出的文字相匹配的内容，并将确定的与识别出的文字相匹配的内容反馈至终端；反馈的内容用于指示终端以用户可感知的内容表达方式，输出内容。

上述基于视频的内容交互装置，服务器接收终端发送的文本标记图像后，对文本标记图像进行文本识别，得到识别出的文字，进而可确定与识别出的文字相匹配的内容，并将该内容反馈至终端。那么，终端可以直接以用户可感知的内容表达方式，输出与该文本标记区域中的文字相匹配的内容。避免用户在无法感知到视频播放画面中的文本时对该文本进行手动搜索的操作，大大提高了基于视频的内容交互的效率。以用户可感知的内容表达方式输出与视频播放画面中的文本相匹配的内容，可以提供与用户需求更匹配的、更准确的内容交互方式。

在一个实施例中，上述识别模块1104还用于对文本标记图像进行文本检测，查找出文本所在区域图像；对文本所在区域图像进行二值化处理，得到二值化区域图像；对二值化区域图像进行字符分割，得到各字符，并识别出各字符的文字。

在一个实施例中，文本感知入口至少包括文本翻译入口和文本朗读入口中的一种，上述反馈模块1106还用于当触发操作所作用的文本感知入口为文本翻译入口时，将识别出的文字发送至翻译服务器，以及接收翻译服务器返回的与识别出的文字相匹配的翻译文本，并将翻译文本反馈至终端；当触发操作所作用的文本感知入口为文本朗读入口时，将识别出的文字发送至语音服务器，以及接收语音服务器返回的与识别出的文字相匹配的语音内容，并将语音内容反馈至终端。

在一个实施例中，上述反馈模块1106还用于在触发操作所作用的文本感知入口为文本翻译入口，并且发生对多个候选语种选项的第一选中操作的情况下，将识别出的文字和第一选中操作所选中的第一目标语种发送至翻译服务器；接收翻译服务器返回的与识别出的文字相匹配，并且属于第一目标语种的翻译文本，并将属于第一目标语种的翻译文本反馈至终端；识别出的文字不属于第一目标语种。

在一个实施例中，上述反馈模块1106还用于在触发操作所作用的文本感知入口为文本朗读入口，并且发生对多个候选语种选项的第二选中操作的情况下，将识别出的文字和第二选中操作所选中的第二目标语种发送至语音服务器；接收语音服务器返回的与识别出的文字相匹配、且属于第二目标语种的语音内容，并将语音内容反馈至终端。

关于基于视频的内容交互装置的具体限定可以参见上文中对于基于视频的内容交互方法的限定，在此不再赘述。上述基于视频的内容交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本标记图像、与识别出的文字相匹配的内容等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于视频的内容交互方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于视频的内容交互方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12或图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于视频的内容交互方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述显示视频播放画面，并在所述视频播放画面中显示文本感知入口，包括：

播放视频，并显示所播放视频中的视频播放画面；

当发生针对所述视频播放画面的预设检测操作时，暂停所述视频的播放，并在当前所显示的视频播放画面之上显示文本感知入口；所述文本感知入口至少包括文本翻译入口和文本朗读入口中的一种。

3.根据权利要求1所述的方法，其特征在于，所述视频播放画面中还显示有语音控制入口，所述响应于对所述文本感知入口的触发操作，进入标记操作状态，包括：

响应于对所述语音控制入口的触发操作，进入语音检测状态；

当在所述语音检测状态下检测到表征启动文本感知入口的目标语音时，进入标记操作状态。

4.根据权利要求1所述的方法，其特征在于，所述响应于在所述标记操作状态下触发的文本标记操作，显示所述视频播放画面中的文本标记区域，包括：

在所述标记操作状态下，显示处于可编辑状态的文本标记框；

响应于对所述文本标记框的编辑操作，通过所述文本标记框选中所述视频播放画面中出现的文本，得到文本标记区域。

5.根据权利要求1所述的方法，其特征在于，所述文本标记操作包括滑动操作，所述响应于在所述标记操作状态下触发的文本标记操作，显示所述视频播放画面中的文本标记区域，包括：

当在所述标记操作状态下触发滑动操作时，随着所述滑动操作的持续发生，显示由所述滑动操作持续作用的位置而构成的封闭滑动轨迹；所述封闭滑动轨迹用于确定所述视频播放画面中的文本标记区域。

6.根据权利要求1所述的方法，其特征在于，所述文本感知入口至少包括文本翻译入口和文本朗读入口中的一种，所述在完成文本标记操作后，以用户可感知的内容表达方式，输出与基于所述文本标记区域所识别到的文字相匹配的内容，包括：

当触发操作所作用的文本感知入口为文本翻译入口时，在与所述文本标记区域对应的位置处，显示与基于所述文本标记区域所识别到的文字相匹配的翻译文本；

当触发操作所作用的文本感知入口为文本朗读入口时，播报与基于所述文本标记区域所识别到的文字相匹配的语音内容。

7.根据权利要求6所述的方法，其特征在于，当触发操作所作用的文本感知入口为文本翻译入口时，在进入标记操作状态之前，所述方法还包括：

显示多个候选语种选项；

当发生对所述多个候选语种选项的第一选中操作时，确定所述第一选中操作所选中的第一目标语种；

所述在与所述文本标记区域对应的位置处，显示与基于所述文本标记区域所识别到的文字相匹配的翻译文本，包括：

在所述视频播放画面中，与所述文本标记区域并列显示所述翻译文本；所述翻译文本为与基于所述文本标记区域所识别到的文字相匹配的文本，且基于所述文本标记区域所识别到的文字不属于所述第一目标语种，所述翻译文本属于所述第一目标语种。

8.根据权利要求6所述的方法，其特征在于，当触发操作所作用的文本感知入口为文本朗读入口时，在进入标记操作状态之前，所述方法还包括：

显示多个候选语种选项；

当发生对所述多个候选语种选项的第二选中操作时，确定所述第二选中操作所选中的第二目标语种；

所述播报与基于所述文本标记区域所识别到的文字相匹配的语音内容，包括：

以第二目标语种，播报与基于所述文本标记区域所识别到的文字相匹配的语音内容。

9.根据权利要求6所述的方法，其特征在于，所述在与所述文本标记区域对应的位置处，显示与基于所述文本标记区域所识别到的文字相匹配的翻译文本，包括：

当所述视频播放画面所在窗口未占用屏幕展示界面的全部区域时，在与所述文本标记区域对应的位置处，显示与基于所述文本标记区域所识别到的文字相匹配的翻译文本；处于所述文本标记区域对应的位置处显示的翻译文本不与所述视频播放画面所在窗口相重叠。

10.根据权利要求6所述的方法，其特征在于，所述方法还包括：

响应于对所述翻译文本的语音播报操作，以音频的形式播报所述翻译文本。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述显示所述视频播放画面中的文本标记区域之后，所述方法还包括：

基于当前所显示的视频播放画面中处于所述文本标记区域内的像素，生成文本标记图像；

将所述文本标记图像发送至服务器；发送的所述文本标记图像用于指示所述服务器基于所述文本标记图像进行文字识别，并获取与识别到的文字相匹配的内容；

接收所述服务器返回的与识别到的文字相匹配的内容。

12.一种基于视频的内容交互方法，其特征在于，应用于服务器，所述方法包括：

对所述文本标记图像进行文本识别，得到识别出的文字；

13.根据权利要求12所述的方法，其特征在于，所述对所述文本标记图像进行文本识别，得到识别出的文字，包括：

对所述文本标记图像进行文本检测，查找出文本所在区域图像；

对所述文本所在区域图像进行二值化处理，得到二值化区域图像；

对所述二值化区域图像进行字符分割，得到各字符，并识别出各所述字符的文字。

14.根据权利要求12所述的方法，其特征在于，所述文本感知入口至少包括文本翻译入口和文本朗读入口中的一种，所述确定与识别出的文字相匹配的内容，并将确定的与识别出的文字相匹配的内容反馈至所述终端，包括：

当触发操作所作用的文本感知入口为文本翻译入口时，将识别出的文字发送至翻译服务器，以及接收所述翻译服务器返回的与识别出的文字相匹配的翻译文本，并将所述翻译文本反馈至所述终端；

当触发操作所作用的文本感知入口为文本朗读入口时，将识别出的文字发送至语音服务器，以及接收所述语音服务器返回的与识别出的文字相匹配的语音内容，并将所述语音内容反馈至所述终端。

15.根据权利要求14所述的方法，其特征在于，所述当触发操作所作用的文本感知入口为文本翻译入口时，将识别出的文字发送至翻译服务器，以及接收所述翻译服务器返回的与识别出的文字相匹配的翻译文本，并将所述翻译文本反馈至所述终端，包括：

在触发操作所作用的文本感知入口为文本翻译入口，并且发生对多个候选语种选项的第一选中操作的情况下，将识别出的文字和所述第一选中操作所选中的第一目标语种发送至翻译服务器；

接收所述翻译服务器返回的与识别出的文字相匹配，并且属于所述第一目标语种的翻译文本，并将属于所述第一目标语种的翻译文本反馈至所述终端；所述识别出的文字不属于所述第一目标语种。

16.根据权利要求14所述的方法，其特征在于，所述当触发操作所作用的文本感知入口为文本朗读入口时，将识别出的文字发送至语音服务器，以及接收所述语音服务器返回的与识别出的文字相匹配的语音内容，并将所述语音内容反馈至所述终端，包括：

在触发操作所作用的文本感知入口为文本朗读入口，并且发生对多个候选语种选项的第二选中操作的情况下，将识别出的文字和所述第二选中操作所选中的第二目标语种发送至语音服务器；

接收所述语音服务器返回的与所述识别出的文字相匹配、且属于第二目标语种的语音内容，并将所述语音内容反馈至所述终端。

17.一种基于视频的内容交互装置，其特征在于，所述装置包括：

18.一种基于视频的内容交互装置，其特征在于，应用于服务器；所述装置包括：

19.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至16中任一项所述的方法的步骤。

20.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。