CN111464827A

CN111464827A - 一种数据处理方法、装置、计算设备及存储介质

Info

Publication number: CN111464827A
Application number: CN202010313895.XA
Authority: CN
Inventors: 谢建斌
Original assignee: Yuhuan Zhixun Information Technology Co ltd
Current assignee: Yuhuan Zhixun Information Technology Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-07-28

Abstract

本发明公开了一种数据处理方法，适于在计算设备中执行，该方法包括：对多媒体数据中的音频数据进行语音识别，以获取对应的文字信息；对多媒体数据中的视频数据进行特征检测，以确定用于添加文字信息的目标位置和定向；以及基于目标对象的位置和定向，将文字信息添加到视频数据中。该方案能够实时将语音转换成的文字信息叠加到视频画面中，实现“口吐文字”的显示效果，增加视频播放的趣味性。

Description

一种数据处理方法、装置、计算设备及存储介质

技术领域

本发明涉及多媒体数据处理技术领域，尤其涉及一种数据处理方法、装置、计算设备及存储介质。

背景技术

随着直播技术的广泛应用，对直播视频的特效处理也越来越多。直播过程中给直播内容加上特效展示会获得更好的主播效果。

一个完整的直播过程包括音视频信号的采集、处理、编码、推流、分发、解码、播放等环节。由于直播视频是实时采集、传输和播放的，因此需要一种多媒体数据处理方法，能够将根据采集到的音频数据识别得到的文字信息实时加入到视频数据中。

发明内容

为此，本发明提供了一种数据处理方法、装置、计算设备及存储介质，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种数据处理方法，该方法适于在计算设备中执行。首先，对多媒体数据中的音频数据进行语音识别，以获取对应的文字信息。然后，对多媒体数据中的视频数据进行特征检测，以确定用于添加文字信息的目标对象的位置和定向。最后，基于目标对象的位置和定向，将文字信息添加到视频数据中。

可选地，在上述方法中，目标对象可以是人或动物的嘴巴。

可选地，在上述方法中，多媒体数据中包括用于音频数据和视频数据同步的时间点信息。

可选地，在上述方法中，可以基于时间点信息，将文字信息逐字添加到视频数据中。

可选地，在上述方法中，可以基于目标对象的音量的大小，调整文字信息显示字体的大小。

可选地，在上述方法中，可以基于文字信息的内容，对文字信息添加动画效果。

可选地，计算设备可以实时采集多媒体数据，视频数据的每帧图像中包含目标对象。

根据本发明又一个方面，提供了一种数据处理方法，该方法适于在直播平台中执行，直播平台包括直播平台服务器、用户端和主播端，每个主播端通过直播平台服务器与多个用户端构成一个直播间。在该方法中，首先接收主播端推送的多媒体数据。然后对多媒体数据中的音频数据进行语音识别，以获取对应的文字信息。并对多媒体数据中的视频数据进行特征检测，以确定用于添加文字信息的目标对象的位置和定向。随后基于目标对象的位置和定向，将文字信息添加到视频数据中。最后，将音频数据和添加文字信息后的视频数据发送给直播间对应的所有用户端，以便在所有相对应的用户端播放多媒体数据。

可选地，在上述方法中，可以接收用户端对文字信息的设置，以便根据用户设置在该用户端呈现文字信息。

可选地，用户端对文字信息的设置包括文字转换语言、字体大小、颜色、样式、动画效果中任意一项或多项。

根据本发明另一个方面，提供了一种数据处理装置，该装置包括获取模块、确定模块和添加模块。其中，获取模块可以对多媒体数据中的音频数据进行语音识别，以获取对应的文字信息。确定模块可以对多媒体数据中的视频数据进行特征检测，以确定用于添加文字信息的目标对象的位置和定向。添加模块可以基于目标对象的位置和定向，将文字信息添加到视频数据中。

根据本发明另一个方面，提供了一种计算设备，包括至少一个处理器；存储有程序指令的存储器，其中，程序指令被配置为由至少一个处理器执行。

根据本发明另一个方面，提供一种存储一个或多个程序的计算机可读存储介质。这里的一个或多个程序包括指令，当这些指令由计算设备执行时，使得该计算设备执行上述方法。

根据本发明方案，通过语音识别技术能够将音频实时转换为文字，通过人脸识别技术可以追踪视频帧中嘴巴位置和定向，以便根据嘴巴位置和方向，将文字渲染在视频帧中相应的位置。该方案能够增加视频播放的趣味性，尤其在直播领域，能够增加直播的互动性。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的结构框图；

图2示出了根据本发明的一个实施例的直播平台200的结构示意图；

图3示出了根据本发明的一个实施例的数据处理方法300的示意性流程图；

图4示出了根据本发明的一个实施例的数据处理装置400的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的计算设备100的结构框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中，程序122可以布置为在操作系统上利用程序数据124进行操作。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以是小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100可以实现为直播平台服务器，可被配置为执行根据本发明的数据处理方法。其中，计算设备100的一个或多个程序122包括用于执行根据本发明的数据处理方法的指令。

图2示出了根据本发明的一个实施例的直播平台200的示意性结构图。如图2所示，直播平台200包括一个或多个用户端(如用户端1-N)、服务器和一个或多个主播端(如主播端1-M)。一个主播端通过服务器与多个用户端构成一个直播间，直播平台中可包括多个直播间。应当理解，图2所示的直播平台200仅是示例性的，在具体实现中可以有不同数量的客户端和主播端，本发明对用户端、服务器、主播端的数量和部署不做限制。

服务器可以分别部署于多个地理位置，其可以实现为单个计算设备也可以实现为集群。服务器分别与用户端和主播端通信连接，能够接收主播端上传的视频流、音频流等多媒体数据流，也能够接收用户端发送的请求并向用户端返回数据。观众和主播可以通过登录客户端或浏览器网页的方式进入直播间。

直播过程包括采集、处理、编码、推流、分发、解码、播放等环节。其中数据的采集可以是摄像机、移动终端、无人机等设备拍摄的画面。采集的多媒体数据经过压缩、编码、基于推流协议封装等处理后可以推送到服务器中变成流数据，服务器就可以对流数据进行转码直播了。直播中广泛使用的推流协议是RTMP实时消息传输协议，该协议是一个基于TCP的协议族，主要用于在流媒体或交互服务器之间进行音视频和数据通信。拉流就是用户端根据协议与服务器建立连接并接收数据，从服务器获取音视频数据，通过解析流数据分别得到已编码的视频数据和音频数据；解压音视频数据得到原始的视频数据和音频数据进行同步，最后将同步的音频数据送到耳机或外放，视频数据送到用户端界面显示。

本方案提供的数据处理方法可以由主播端、用户端、服务器中任一方执行。即可以在推流之前完成数据的处理，可以在推流到服务器中执行数据的处理，也可以在拉流时进行数据的处理，本方案对此不做限定。

图3示出了根据本发明的一个实施例的数据处理方法300的示意性流程图。该方法适于在计算设备中执行。如图3所示，该方法始于步骤S310。

首先在步骤S310中，对多媒体数据中的音频数据进行语音识别，以获取对应的文字信息。

其中，多媒体数据可以包括文本、动画、声音、图像等多种形式，而音频数据就是数字化的声音。多媒体数据可以是计算设备通过摄像头等摄像设备直接采集的，可以将采集的多媒体数据转换成预定格式的待播放数据。语音识别就是将一段语音信号转换成对应的文本信息。对音频数据的语音识别主要包括特征提取、模式匹配和模型训练。为了更有效地提取特征需要对采集的声音信号进行滤波、分帧等音频数据预处理。模型训练可以包括声学模型的训练和语言模型的训练，声学模型通过对音频数据进行训练获得，输入是特征向量，输出为音素信息。语言模型通过对大量文本信息进行训练，得到单个字或者词相互关联的概率。最后，根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。字典是字或词与音素的对应，简单来说，中文就是拼音和汉字的对应，英文就是音标与单词的对应。解码就是通过声学模型、字典、语言模型对提取特征后的音频数据进行文字输出。例如在语音识别过程中将音频数据的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高的作为识别结果输出。例如，当视频中主播使用英语进行交流，则语音识别的结果就是英文单词，当视频中主播使用汉语进行交流，则语音识别的结果是汉语词语。还可以利用人工神经网络的方法进行语音识别，本方案对语音识别的具体方案不做限定。

随后在步骤S320中，对多媒体数据中的视频数据进行特征检测，以确定用于添加文字信息的目标对象的位置和定向。

视频数据是指连续的图像序列，图像序列在时间上连续。计算设备采集的视频数据为视频流数据，可以获取其中的每一帧数据，也可以间隔获取其中的关键帧进行处理。由于视频数据量庞大，为了减少数据的处理量，可以提取视频数据中的关键帧进行特征检测。对于视频数据进行特征检测主要是对图像中的目标对象进行特征点检测，目标对象可以是人或者动物的嘴巴。例如，当视频画面中同时出现人和狗，则将人和狗都作为目标对象，可以同时进行人脸检测和狗脸检测，定位出人脸和狗脸的区域，再进一步进行特征点定位和追踪。例如可以在图像中分割定位出脸部区域，然后在检测出的脸部区域内定位嘴巴区域，并定位出关键特征点，如嘴角、唇峰、嘴部轮廓等。定向一般指动物主动调整身体或身体部位的空间位置，转向指定的方向。由于视频数据中人或动物的姿态是实时变化的，需要对嘴部进行追踪，以确定嘴巴的位置以及嘴巴的朝向。对于嘴巴定向追踪可以基于连续视频帧中相应特征点位置之间的差异，确定嘴巴的定向。

需要说明的是，在对视频数据进行特征检测时，还可以对脸部其他部位进行特征点定位和追踪，以便在视频画面中添加其他直播特效。例如根据检测到的眼睛位置，在眼睛处添加一副墨镜，根据检测到的脸部轮廓，对脸部添加瘦脸特效等。以上对音频数据的语音识别和对视频数据的特征检测可以同时进行，也可以先后进行，在播放多媒体数据时可以基于相同的时间点实现音视频的同步播放。

最后在步骤S330中，基于目标对象的位置和定向，将文字信息添加到视频数据中。

根据本发明的一个实施例，多媒体数据中包括用于音视频同步的时间点信息，语音识别转换后的文字信息也包括相应的音频数据的时间点信息。视频播放时需要音频和视频的同步，可以将视频同步到音频上，也可以将音频同步到视频上。例如可以将音频数据作为主流，视频数据作为从流，具有相同时间点的音视频数据同时播放，从而实现了音视频数据的同步。可以基于时间点信息，将转换后的文字信息逐字添加到视频数据中。例如在将语音转换为文字的过程中可以将音频数据进行分段处理，逐段进行语音识别，然后将转换的文字信息按照时间点渲染到视频数据中，还可以根据语句的停顿对音频数据进行分段，进一步提高语音识别的实时性，从而实现“口吐弹幕”的文字展示效果。例如，当前视频帧中人面向左侧，则将文字信息添加到嘴巴位置的左侧方。总而言之，文字信息在视频数据中的叠加效果可以体现说话者的节奏、音量大小等。

根据本发明的一个实施例，可以基于目标对象的音量的大小，调节文字信息显示字体的大小。例如可以根据音频数据中采样点的振幅值计算相应的分贝值。可以将分贝值与字体大小的关系设置为线性关系，分贝值越大，字体显示越大。这种根据声音的大小调整字体显示大小的直播特效能够进一步增加直播的趣味性。

根据本发明的一个实施例，可以基于文字信息的内容，对文字信息添加动画效果。例如当文字信息的内容为“太开心了”则在文字信息上叠加抖动效果，或者添加开心的表情等，使文字信息的展示更加生动有趣。当语音识别的文字信息中包含预设的关键词，可以根据关键词与操作指令之间的对应关系，将文字信息转换为对应的操作指令。例如当文字信息中包含“开启弹幕”的内容，可以在直播间开启弹幕功能。

根据本发明的一个实施例，上述数据处理方法可以在直播平台服务器中执行。直播平台服务器可以接收主播端推送的多媒体数据；然后可以对多媒体数据中的音频数据进行语音识别，以获取对应的文字信息。同时对多媒体数据中的视频数据进行特征检测，以确定用于添加文字信息的目标对象的位置和定向。从而基于目标对象的位置和定向，将文字信息添加到视频数据中。最后将音频数据和添加文字信息后的视频数据发送给直播间对应的所有用户端，以便在用户端播放经处理后的多媒体数据。例如在直播时，可以将数据处理后文字信息和音视频数据一起放入待播放数据中，这样用户在观看直播时，能够看到根据语音识别生成的文字信息。

根据本发明的一个实施例，当用户端播放经处理后的多媒体数据，可以在用户端界面进一步设置多媒体数据的显示效果。例如可以设置文字信息的字体大小、颜色、样式、动画效果等，还可以将文字信息转换成自己偏好的语言。例如可以提供设置界面，不同等级的用户可以设置文字信息的选项不同。例如，当用户在直播间的等级较高，则可以将文字转换为多种语言，可以将文字设置为彩色等，而一些等级较低的用户只能使用一些基础的设置选项。这样可以进一步激励用户在直播间的互动行为。

图4示出了根据本发明的一个实施例的数据处理装置400的示意性结构框图。该装置400可以驻留在计算设备100中。数据处理装置400和计算设备100也可以是各自独立的不同装置。如图4所示，该装置400包括获取模块410、确定模块420以及添加模块430。

其中，获取模块410可以对多媒体数据中的音频数据进行语音识别，以获取对应的文字信息。确定模块420可以对多媒体数据中的视频数据进行特征检测，以确定用于添加文字信息的目标对象的位置和定向。添加模块430可以基于目标对象的位置和定向，将文字信息添加到视频数据中。

A7、如A1所述的方法，其中，所述计算设备适于实时采集所述多媒体数据，所述视频数据中每帧图像中包含所述目标对象。

B9、如B8所述的方法，其中，所述目标对象为人或动物的嘴巴。

B10、如B8所述的方法，其中，所述多媒体数据中包括用于音视频同步的时间点信息。

B11、如B10所述的方法，其中，所述将文字信息添加到视频数据中的步骤包括：基于时间点信息，将所述文字信息逐字添加到视频数据中。

B12、如B11所述的方法，其中，所述将文字信息添加到视频数据中的步骤包括：基于所述目标对象的音量的大小，调整文字信息显示字体的大小。

B13、如B11所述的方法，其中，所述将文字信息添加到视频数据中的步骤包括：基于所述文字信息的内容，对文字信息添加动画效果。

B14、如B8所述的方法，其中，所述方法包括：接收用户端对所述文字信息的设置，以便根据用户设置在所述用户端呈现所述文字信息。

B15、如B14所述的方法，其中，所述用户端对文字信息的设置包括文字转换语言、字体大小、颜色、样式、动画效果中任意一项或多项。

根据本发明的方案，通过对多媒体数据中的音频数据进行语音识别转换成文字信息，通过对视频数据进行特征检测确定在视频数据中添加文字信息的位置和定向。能够实现口吐文字的显示效果，增加视频播放的趣味性，增加直播行为的互动性，提升用户体验。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种数据处理方法，适于在计算设备中执行，所述方法包括：

对多媒体数据中的音频数据进行语音识别，以获取对应的文字信息；

对所述多媒体数据中的视频数据进行特征检测，以确定用于添加文字信息的目标对象的位置和定向；以及

基于所述目标对象的位置和定向，将所述文字信息添加到视频数据中。

2.如权利要求1所述的方法，其中，所述目标对象为人或动物的嘴巴。

3.如权利要求1所述的方法，其中，所述多媒体数据中包括用于音视频同步的时间点信息。

4.如权利要求3所述的方法，其中，所述将文字信息添加到视频数据中的步骤包括：

基于时间点信息，将所述文字信息逐字添加到视频数据中。

5.如权利要求4所述的方法，其中，所述将文字信息添加到视频数据中的步骤包括：

基于所述目标对象的音量的大小，调整文字信息显示字体的大小。

6.如权利要求5所述的方法，其中，所述将文字信息添加到视频数据中的步骤包括：

基于所述文字信息的内容，对文字信息添加动画效果。

7.一种数据处理方法，适于在直播平台中执行，所述直播平台包括直播平台服务器、用户端和主播端，每个主播端通过所述直播平台服务器与多个用户端构成一个直播间，所述方法包括：

接收所述主播端推送的多媒体数据；

对所述多媒体数据中的视频数据进行特征检测，以确定用于添加文字信息的目标对象的位置和定向；

基于所述目标对象的位置和定向，将所述文字信息添加到视频数据中；以及

将所述音频数据和添加文字信息后的视频数据发送给所述直播间对应的所有用户端，以便在所有相对应的用户端播放所述多媒体数据。

8.一种数据处理装置，其中，所述装置包括：

获取模块，适于对多媒体数据中的音频数据进行语音识别，以获取对应的文字信息；

确定模块，适于对所述多媒体数据中的视频数据进行特征检测，以确定用于添加文字信息的目标对象的位置和定向；以及

添加模块，适于基于所述目标对象的位置和定向，将所述文字信息添加到视频数据中。

9.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-6所述的方法中的任一方法的指令。

10.一种存储一个或多个程序的可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-6所述的方法中的任一方法。