CN113709579B

CN113709579B - 音视频数据的传输方法、装置以及存储介质

Info

Publication number: CN113709579B
Application number: CN202110905042.XA
Authority: CN
Inventors: 倪浩轩; 徐曜; 王文锋; 李智; 宋振宇
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2023-07-21
Anticipated expiration: 2041-08-05
Also published as: CN113709579A

Abstract

本发明公开了一种音视频数据的传输方法、装置以及存储介质，音视频数据的传输方法包括：提取原始音视频数据流中的原始音频流和原始视频流；获取播放终端的地理位置信息；将原始音频流发送至语音识别服务器并将地理位置信息发送至翻译服务器；将翻译服务器返回的字幕字符串以及原始视频流发送至播放终端，其中，语音识别服务器识别得到原始音频流的原始字符串后，将原始字符串发送至翻译服务器，翻译服务器将原始字符串翻译为地理位置信息对应的字幕字符串。本发明播放终端播放的字幕字符串与播放终端的地理位置信息匹配，使得音视频数据的播放更加智能。

Description

音视频数据的传输方法、装置以及存储介质

技术领域

本发明涉及通信领域，尤其涉及一种音视频数据的传输方法、装置以及存储介质。

背景技术

观看视频流已经成为很多用户的主流消遣方式，而直播应用往往会在多个国家或者地区发布，而不同国家或者地区的语言习惯不同会导致用户对视频流的字幕语言不同；而为适应不同地区的用户观看往往需要提前保存不同地区的视频，并按照用户选择的语言分发视频，导致音视频数据的传输不够智能。

发明内容

本发明的主要目的在于提供一种音视频数据的传输方法、装置以及存储介质，旨在解决音视频数据的传输不够智能的技术问题。

为实现上述目的，本发明提供一种音视频数据的传输方法，其特征在于，所述音视频数据的播放方法应用于数据分发服务器，所述音视频数据的传输包括：

提取原始音视频数据流中的原始音频流和原始视频流；

获取所述播放终端的地理位置信息；

将所述原始音频流发送至语音识别服务器并将所述地理位置信息发送至翻译服务器；

将所述翻译服务器返回的字幕字符串以及所述原始视频流发送至播放终端，其中，所述语音识别服务器识别得到所述原始音频流的原始字符串后，将所述原始字符串发送至翻译服务器，所述翻译服务器将所述原始字符串翻译为所述地理位置信息对应的字幕字符串。

可选地，所述获取所述播放终端的地理位置信息的步骤包括：

获取播放终端的IP地址信息对应的域名信息，所述通信地址为IP地址；

根据所述域名信息获取所述播放终端的地址信息。

可选地，所述字幕字符串以及所述原始视频流中均设置有时间戳，所述目标终端根据所述时间戳进行所述原始视频流以及所述字幕字符串的时间同步。

可选地，所述将所述翻译服务器返回的字幕字符串以及所述原始视频流发送至播放终端的步骤包括：

在所述播放终端为多个时，将每个所述播放终端的所述通信地址与所述原始音频流关联后发送至所述语音识别服务器；

将每个所述播放终端的所述通信地址以及所述地理位置信息发送至所述翻译服务器，以供所述翻译服务器在接收到语音识别服务器发送的原始字符串后，根据所述原始字符串关联的通信地址获取所述原始字符串对应的地理位置信息。

将所述原始音频流以及所述翻译服务器返回的目标音频流合成为目标音视频流，以及将所述目标音视频流以及所述字幕字符串发送至所述播放终端，其中，所述翻译服务器将所述原始字符串翻译为所述地理位置信息对应的目标音频流；

或者，所述翻译服务器将所述原始字符串翻译为所述地理位置信息对应的目标音频流发送至所述播放终端。

此外，为实现上述目的，本发明还提出一种音视频数据的传输方法，所述音视频数据的传输方法应用于播放终端，所述音视频数据的传输方法包括：

向数据分发服务器发送播放请求；

接收所述数据分发服务器发送的原始视频流以及字幕字符串，其中，所述字幕字符串由翻译服务器根据所述播放终端的位置信息对原始音频流的原始字符串翻译后得到；

播放所述原始视频流并同步显示所述字幕字符串。

可选地，所述播放所述原始视频流并同步显示所述字幕字符串的步骤包括：

对所述原始视频流和所述字幕字符串进行时间戳同步；

参照同步后的时间戳播放所述原始视频流并同步显示所述字幕字符串。

此外，为实现上述目的，本发明还提出一种音视频数据的传输装置，其特征在于，所述音视频数据的传输装置包括提取模块、获取模块以及第一发送模块，其中：

所述提取模块，用于提取原始音视频数据流中的原始音频流和原始视频流；

所述获取模块，用于获取所述播放终端的地理位置信息；

所述第一发送模块，用于将所述原始音频流发送至语音识别服务器并将所述地理位置信息发送至翻译服务器以及将所述翻译服务器返回的字幕字符串以及所述原始视频流发送至播放终端，其中，所述语音识别服务器识别得到所述原始音频流的原始字符串后，将所述原始字符串发送至翻译服务器，所述翻译服务器将所述原始字符串翻译为所述地理位置信息对应的字幕字符串；

或者，所述音视频数据的传输装置还包括第二发送模块、接收模块以及播放模块，其中：

所述第二发送模块，用于向数据分发服务器发送播放请求；

所述接收模块，用于接收所述数据分发服务器发送的原始视频流以及字幕字符串，其中，所述字幕字符串由翻译服务器根据所述播放终端的位置信息对原始音频流的原始字符串翻译后得到；

所述播放模块，用于播放所述原始视频流并同步显示所述字幕字符串。

此外，为实现上述目的，本发明还提出一种音视频数据的传输装置，其特征在于，所述音视频数据的传输装置包括存储器以及处理器，所述存储器用于存储音视频数据的传输程序，所述存储器中的音视频数据的传输程序被所述处理器执行时实现如以上任一项所述的音视频数据的传输方法。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音视频数据的传输程序，所述音视频数据的传输程序被处理器执行时实现如以上任一项所述的音视频数据的传输方法的步骤。

本发明提出的音视频数据的传输方法、装置以及存储介质，在接收到原始音视频数据流后，获取播放终端的地理位置信息，并将原始音频流转换为播放装置的位置对应的字幕字符串并发送至播放终端，播放终端播放的字幕字符串与播放终端的地理位置信息匹配，使得音视频数据的播放更加智能。

附图说明

图1为本发明音视频数据的传输方法涉及的装置的硬件架构示意图；

图2为本发明音视频数据的传输方法运行于数据分发服务器的示例性实施例一的流程示意图；

图3为本发明音视频数据的传输方法运行于播放终端的示例性实施例一的流程示意图；

图4为本发明音视频数据的传输方法运行于数据分发服务器的示例性实施例二的流程示意图；

图5为本发明音视频数据的传输方法运行于数据分发服务器的示例性实施例三的流程示意图；

图6为本发明音视频数据的传输装置位于数据分发服务器中的功能模块示意图；

图7为本发明音视频数据的传输装置位于播放终端中的功能模块示意图；

图8为本发明音视频数据的传输方法涉及的系统中各个终端之间的交互示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

参照图1，图1为本发明音视频数据的传输方法涉及的装置的硬件架构示意图。

如图1所示，本实施例涉及的音视频数据的传输装置可为服务器或者播放终端。

本实施例中的音视频数据的传输装置可包括存储器110、处理器120以及通信模块130，其中，存储器110，用于存储音视频数据的传输程序；处理器120，用于执行存储器110中的音视频数据的传输程序。

在所述音视频数据的传输装置为数据分发服务器时，通信模块130用于与语音识别服务、翻译服务器以及播放终端之间进行通信；在所述音视频数据的传输装置为播放终端时，通信模块130用于与翻译服务器以及数据分发服务器之间进行通信

本实施例公开的技术方案中，在所述音视频数据的传输装置为数据分发服务器时，存储器110中的音视频数据的传输程序被处理器120执行时实现以下步骤：

提取原始音视频数据流中的原始音频流和原始视频流；

获取所述播放终端的地理位置信息；

向数据分发服务器发送播放请求；

接收所述数据分发服务器发送的原始视频流以及字幕字符串；

播放所述原始视频流并同步显示所述字幕字符串。

参照图2，图2为本发明音视频数据的传输方法运行于数据分发服务器的示例性实施例一的流程示意图，在本实施例中，所述音视频数据的传输方法运行于数据分发服务器中时，所述音视频数据的传输方法包括：

步骤S10，提取原始音视频数据流中的原始音频流和原始视频流；

本实施例中的音频数据流可为RTMP(Real Time Messaging Protocol、实时消息传输协议)数据、HTTP-FLV(HyperText Transfer Protocol-FLASH VIDEO，超文本传输协议流媒体数据)或者HLS(Http Live Streaming，直播演示系统)数据。

可选的，步骤S10之前还包括步骤：在接收到到播放请求后，获取所述播放请求对应的视频标识信息；实时获取所述视频标识信息对应的所述原始音视频数据流。

本实施例中的视频标识可包括视频的名称以及视频的目标地址，目标地址可对应目标服务器，则可根据目标地址以及视频的名称向目标服务器发送对应的原始音频数据流；可以理解的是，视频标识可包括播放终端中登录用户的用户标识，将用户标识以及视频的名称同时发送至目标服务器，目标服务器根据用户标识获取目标视频的观看进度，根据观看进度获取对应的原始音视频数据流并发送至数据分服务器；或者，视频标识信息金额包括视频观看进度、视频名称以及视屏的目标地址，根据所述视频观看进度以及视频名称由该目标地址获取对应的音视频数据流。

本实施例公开的技术方案可应用于直播场景，而直播场景中音视频数据为实时发送和接收，故在接收到数据源服务器发送的音视频数据流后即进行处理，直至接收到用户发送的停止播放指令或者退出指令。

步骤S20，获取所述播放终端的地理位置信息；

本实施例中可对播放终端连接数据分发服务器的TCP长连接对应的IP地址进行域名解析得到域名信息，根据域名信息即可得到地理位置信息，也可由播放终端主动上报地理位置信息，地理位置信息可为国家以及城市等，域名解析可通过数据分发服务器实现，也可将IP地址发送至解析服务器，并接收解析服务器反回的域名信息。由于播放终端的IP地址是可变的，则可通过播放终端发送的播放请求中获取IP地址，也可在播放终端的IP地址更新后更新保存的播放终端的地址。

可选地，步骤S20包括：

根据所述域名信息获取所述播放终端的地址信息。

步骤S30，将所述原始音频流发送至语音识别服务器并将所述地理位置信息发送至翻译服务器；

步骤S40，将所述翻译服务器返回的字幕字符串以及所述原始视频流发送至播放终端，其中，所述语音识别服务器识别得到所述原始音频流的原始字符串后，将所述原始字符串发送至翻译服务器，所述翻译服务器将所述原始字符串翻译为所述地理位置信息对应的字幕字符串。

本实施例公开的技术方案中为实现原始视频流以及字幕字符串的同步播放，可对原始视频流以及字幕字符串的同步播放添加标识信息，以使同一原始音频数据流对应的原始视频流以及字幕字符串同步播放，故可按照播放顺序对每一帧视频以及对应的音频添加相同的标识，例如第一帧图像以及音频的标识为1；或者，也可对原始视频数据流和原始音频数据流添加时间戳，并根据时间戳来播放接收到的原始视频流以及字幕字符串，即所述原始视频流以及字幕字符串中均设置有时间戳，所述目标终端根据所述时间戳进行原始视频流以及字幕字符串的时间同步，例如，可在提取原始音视频数据流中的原始音频流和原始视频流后，对原始音频流和原始视频流添加相同的时间戳，该时间戳可根据当前时间点生成，并在通过语音识别服务器以及翻译服务器转换为字幕字符串后时间戳保持不变，以实现原始视频流以字幕字符串的同步；或者，同时对原始视频流以及字幕字符串添加标识以及时间戳，根据标识确定需要同步播放的原始视频流以及字幕字符串，并对需要同步播放的原始视频流以及字幕字符串进行时间戳同步后再进行播放。

语音识别服务器在将原始音频流转换为原始字符串时，可根据原始音频流中的语音的停顿以及原始音频流对应的语音的发音习惯将解析得到的原始字符串分割为多个字符串，而字符串的分割位置与原始音频流的停顿位置相关；语音识别服务器发送至翻译服务器的原始字符串中包括至少一个字符串，翻译服务器可根据数据分发服务器发送的位置信息对接收到的原始字符串进行翻译得到位置信息对应的字幕字符串。

可选的，语音服务器可获取原始音视频数据流对应的原始位置信息(可通过原始音视频数据流的属性信息得到)，并根据原始位置位置信息将语音信息转换为对应的文字信息，例如在位置信息为美国，则可通过美国对应的数据库对语音信息进行转换得到文字信息；在原始位置信息与播放终端的地理位置信息不同时，确定原始位置信息与地理位置信息是否为同一国家，在不是同一国家时，将原始字符串翻译为目标字符串，在为同一国家时将原始字符串作为目标字符串；可以理解的是，由于由于用户可能存在个人喜好的语言，比如用户虽然位于中国但用户为美国人，喜好的语言为英语，则可确定地理位置信息对应的语言与用户的历史习惯语言是否匹配，在与用户的历史习惯语言不匹配时，将原始字符串翻译为历史习惯语言对应的字幕字符串，在与用户的历史习惯语言匹配时，按照地理位置信息对应的语言翻译原始字符串得到目标字符串。

对应地，参照图3，在音视频数据的传输方法应用于播放终端时，音视频数据的传输方法包括：

步骤S50，向数据分发服务器发送播放请求；

步骤S60，接收所述数据分发服务器发送的原始视频流以及翻译服务器发送的字幕字符串，其中，所述字幕字符串由翻译服务器根据所述播放终端的位置信息对原始音频流的原始字符串翻译后得到；

步骤S70，播放所述原始视频流并同步显示所述字幕字符串。

播放终端在接收到播放指令后，根据播放指令获取视频标识，并根据视频标识生产播放请求后发送至数据分发服务器；由于数据分发服务器发送的原始视频流以及翻译服务器发送的字幕字符串可能不是同时发送，则需要对接收到原始视频流以及字幕字符串的进行时间同步，以保证同时播放原始视频流以及字幕字符串，即步骤S70可包括：

对所述原始视频流和所述字幕字符串进行时间戳同步；

时间戳同步即可将原始视频流和所述字幕字符串的播放时间戳同步为同一时间戳，即在原始视频流和字幕字符串的标识信息相同时，说明原始视频流和字幕字符串可同步播放，则将相同标识的原始视频流和字幕字符串的播放时间戳同步为一致。

本实施例公开的技术方案中，在接收到原始音视频数据流后，获取播放终端的地理位置信息，并将原始音频流转换为播放装置的位置对应的字幕字符串并发送至播放终端，播放终端播放的字幕字符串与播放终端的地理位置信息匹配，使得音视频数据的播放更加智能。

参照图4，图4为本发明音视频数据的传输方法运行于数据分发服务器的示例性实施例二的流程示意图，在本实施例中，音视频数据的传输方法运行于数据分发服务器时，步骤S40包括：

步骤S41，在所述播放终端为多个时，将每个所述播放终端的所述通信地址与所述原始音频流关联后发送至所述语音识别服务器；

步骤S42，将每个所述播放终端的所述通信地址以及所述地理位置信息发送至所述翻译服务器，以供所述翻译服务器在接收到语音识别服务器发送的原始字符串后，根据所述原始字符串关联的通信地址获取所述原始字符串对应的地理位置信息。

在有多个播放终端时，同一原始音视频数据流需要发送至多个播放终端进行播放，则需要将原始音频流转换为不同地理位置对应的字幕字符串，以使字幕字符串与播放终端匹配，语音识别服务器可将通信地址与转换得到的字符串信息关联后发送至翻译服务器，翻译服务器获取通信地址关联的地理位置信息，并根据关联的地理位置信息对字符串信息进行翻译，然后将翻译后的字符串编码对目标语音信息。

本实施例公开的技术方案中，通过将通信地址与原始音频流以及地理位置信息关联，使得最终得到的字幕字符串与通信地址关联后，准确发送至对应的播放终端。

参照图5，图5为本发明音视频数据的传输方法运行于数据分发服务器的示例性实施例三的流程示意图，在本实施例中，音视频数据的传输方法运行于数据分发服务器时，步骤S40包括：

步骤S43，将所述原始音频流以及所述翻译服务器返回的目标音频流合成为目标音视频流；

步骤S44，将所述目标音视频流以及所述字幕字符串发送至所述播放终端，其中，所述翻译服务器将所述原始字符串翻译为所述地理位置信息对应的目标音频流。

或者，所述翻译服务器将所述原始字符串翻译为所述地理位置信息对应的目标音频流发送至所述播放终端，即数据分发服务器将通信地址以及位置信息均发送至翻译服务器，翻译服务器根据通信地址将目标音频流发送至播放终端。

语音识别服务器在将原始音频流转换为原始字符串时，可根据原始音频流中的语音的停顿以及原始音频流对应的语音的发音习惯将解析得到的原始字符串分割为多个字符串，而字符串的分割位置与原始音频流的停顿位置相关；语音识别服务器发送至翻译服务器的原始字符串中包括至少一个字符串，翻译服务器可根据数据分发服务器发送的位置信息对接收到的字符串进行翻译得到位置信息对应的字符串，并将翻译后的字符串转换为音频数据；或者，也可直接按照位置信息获取对应的语音编码模型，按照位置信息对应的语音编码模型对字符串进行编码得到音频数据，不同的位置信息对应的语音编码模型不同；或者，可根据数据分发服务器发送的位置信息对接收到的字符串进行翻译得到位置信息对应的字符串，按照位置信息对应的语音编码模型对翻译得到的字符串进行编码得到音频数据，不同的位置信息对应的语音编码模型不同。

例如，该数据分发服务器可应用于同一国家的不同城市，而同一国家的不同城市的口音可能有差别，则可在接收到原始字符串后，直接按照位置信息获取对应的语音编码模型，按照位置信息对应的语音编码模型对字符串进行编码得到音频数据，不同的位置信息对应的语音编码模型不同；在国家不同时，翻译服务器可根据数据分发服务器发送的位置信息对接收到的字符串进行翻译得到位置信息对应的字符串，并将翻译后的字符串转换为音频数据；或者，国家不同且区域有口音时，可根据数据分发服务器发送的位置信息对接收到的字符串进行翻译得到位置信息对应的字符串，按照位置信息对应的语音编码模型对翻译得到的字符串进行编码得到音频数据，不同的位置信息对应的语音编码模型不同。

可选的，语音服务器可获取原始音视频数据流对应的原始位置信息(可通过原始音视频数据流的属性信息得到)，并根据原始位置位置信息将语音信息转换为对应的文字信息，例如在位置信息为美国，则可通过美国对应的数据库对语音信息进行转换得到文字信息；在原始位置信息与播放终端的地理位置信息不同时，确定原始位置信息与地理位置信息是否为同一国家，在不是同一国家时，语音识别服务器发送至翻译服务器的原始字符串中包括至少一个字符串，翻译服务器可根据数据分发服务器发送的位置信息对接收到的字符串进行翻译得到位置信息对应的字符串，并将翻译后的字符串转换为音频数据，或者根据数据分发服务器发送的位置信息对接收到的字符串进行翻译得到位置信息对应的字符串，按照位置信息对应的语音编码模型对翻译得到的字符串进行编码得到音频数据，不同的位置信息对应的语音编码模型不同；在原始位置信息与播放设备的地理位置信息为同一国家时，在接收到原始字符串后，直接按照位置信息获取对应的语音编码模型，按照位置信息对应的语音编码模型对字符串进行编码得到音频数据，不同的位置信息对应的语音编码模型不同。

翻译服务器在得到目标语音信息后将目标语音信息返回数据分发服务器，数据分发服务器将目标音频流、原始视频流以及字幕字符串一起发送至播放终端。

对应地，播放终端接收到目标音视频流以及所述字幕字符串后，提取目标音视频流中的原始视频流以及目标音频流，同步播放原始视频流、目标音频流以及字幕字符串。

本实施例公开的技术方案中语音信息以及字幕信息均进行翻译，即语音信息以及字幕信息均适应播放终端所在的位置，提高播放智能性。

参照图6，本发明还提出一种音视频数据的传输装置，所述音视频数据的传输装置位于数据分发服务器中，包括提取模块10、获取模块20以及第一发送模块30，其中：

所述提取模块10，用于提取原始音视频数据流中的原始音频流和原始视频流；

所述获取模块20，用于获取所述播放终端的地理位置信息；

所述第一发送模块30，用于将所述原始音频流发送至语音识别服务器并将所述地理位置信息发送至翻译服务器以及将所述翻译服务器返回的字幕字符串以及所述原始视频流发送至播放终端，其中，所述语音识别服务器识别得到所述原始音频流的原始字符串后，将所述原始字符串发送至翻译服务器，所述翻译服务器将所述原始字符串翻译为所述地理位置信息对应的字幕字符串；

或者，参照图7，所述音视频数据的传输装置位于播放终端中，即包括第二发送模块40、接收模块50以及播放模块60，其中：

所述第二发送模块40，用于向数据分发服务器发送播放请求；

所述接收模块50，用于接收所述数据分发服务器发送的原始视频流以及字幕字符串，其中，所述字幕字符串由翻译服务器根据所述播放终端的位置信息对原始音频流的原始字符串翻译后得到；

所述播放模块60，用于播放所述原始视频流并同步显示所述字幕字符串。

参照图7，图7为本申请涉及的音视频数据的传输系统的示意图，数据分发服务器在接收到播放请求后，根据播放请求由目标服务器获取原始音视频数据流，并对播放终端的IP地址进行域名解析得到播放终端的域名，根据域名获取获取播放终端的地理位置信息，将原始音频流发送至语音识别服务器，将地理位置信息发送至翻译服务器，语音识别服务器进行语音识别得到字符串信息，并将识别得到的字符串信息发送至翻译服务器，翻译服务器翻译得到字幕字符串后发送至数据分发服务器，数据分发服务器将字幕字符串以及原始视频流发送至播放终端进行播放。

本发明还提出一种音视频数据的传输装置，所述音视频数据的传输装置包括存储器以及处理器，所述存储器用于存储音视频数据的传输程序，所述存储器中的音视频数据的传输程序被所述处理器执行时实现如以上任一实施例所述的音视频数据的传输方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有音视频数据的传输程序，所述音视频数据的传输程序被处理器执行时实现如以上实施例所述的音视频数据的传输方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本发明每个实施例的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音视频数据的传输方法，其特征在于，所述音视频数据的播放方法应用于数据分发服务器，所述音视频数据的传输包括：

提取原始音视频数据流中的原始音频流和原始视频流；

获取播放终端的地理位置信息；

将所述翻译服务器返回的字幕字符串以及所述原始视频流发送至播放终端；

其中，所述语音识别服务器识别得到所述原始音频流的原始字符串后，将所述原始字符串发送至翻译服务器，所述原始字符串包括至少一个字符串；所述翻译服务器用于在所述原始音频流的原始位置信息与所述播放终端的地理位置信息不同时，将所述原始字符串翻译为所述地理位置信息对应的字幕字符串；或，所述翻译服务器用于在所述地理位置信息对应的语言与用户的历史习惯语言不匹配时，将所述原始字符串翻译为所述历史习惯语言对应的字幕字符串，在与所述用户的历史习惯语言匹配时，按照所述地理位置信息对应的语言翻译所述原始字符串得到目标字符串。

2.如权利要求1所述的音视频数据的传输方法，其特征在于，所述获取所述播放终端的地理位置信息的步骤包括：

获取播放终端的通信地址信息对应的域名信息，所述通信地址为IP地址；

根据所述域名信息获取所述播放终端的地址信息。

3.如权利要求1所述的音视频数据的传输方法，其特征在于，所述字幕字符串以及所述原始视频流中均设置有时间戳，目标终端根据所述时间戳进行所述原始视频流以及所述字幕字符串的时间同步。

4.如权利要求1所述的音视频数据的传输方法，其特征在于，所述将所述翻译服务器返回的字幕字符串以及所述原始视频流发送至播放终端的步骤包括：

在所述播放终端为多个时，将每个所述播放终端的通信地址与所述原始音频流关联后发送至所述语音识别服务器；

5.如权利要求1所述的音视频数据的传输方法，其特征在于，所述将所述翻译服务器返回的字幕字符串以及所述原始视频流发送至播放终端的步骤包括：

6.一种音视频数据的传输方法，其特征在于，所述音视频数据的传输方法应用于播放终端，所述音视频数据的传输方法包括：

向数据分发服务器发送播放请求；

接收所述数据分发服务器发送的原始视频流以及字幕字符串，其中，所述字幕字符串由翻译服务器根据所述播放终端的位置信息对原始音频流的原始字符串翻译后得到；所述原始字符串是语音识别服务器识别所述原始音频流得到，所述原始字符串包括至少一个字符串；所述翻译服务器用于在所述原始音频流的原始位置信息与所述播放终端的地理位置信息不同时，将所述原始字符串翻译为所述地理位置信息对应的字幕字符串；或，所述翻译服务器用于在所述地理位置信息对应的语言与用户的历史习惯语言不匹配时，将所述原始字符串翻译为所述历史习惯语言对应的字幕字符串，在与所述用户的历史习惯语言匹配时，按照所述地理位置信息对应的语言翻译所述原始字符串得到目标字符串；

播放所述原始视频流并同步显示所述字幕字符串。

7.如权利要求6所述的音视频数据的传输方法，其特征在于，所述播放所述原始视频流并同步显示所述字幕字符串的步骤包括：

对所述原始视频流和所述字幕字符串进行时间戳同步；

8.一种音视频数据的传输装置，其特征在于，所述音视频数据的传输装置包括提取模块、获取模块以及第一发送模块，其中：

所述获取模块，用于获取播放终端的地理位置信息；

所述第一发送模块，用于将所述原始音频流发送至语音识别服务器并将所述地理位置信息发送至翻译服务器以及将所述翻译服务器返回的字幕字符串以及所述原始视频流发送至播放终端，其中，所述语音识别服务器识别得到所述原始音频流的原始字符串后，将所述原始字符串发送至翻译服务器，所述原始字符串包括至少一个字符串；所述翻译服务器将所述原始字符串翻译为所述地理位置信息对应的字幕字符串；

所述翻译服务器用于在所述原始音频流的原始位置信息与所述播放终端的地理位置信息不同时，将所述原始字符串翻译为所述地理位置信息对应的字幕字符串；或，所述翻译服务器用于在所述地理位置信息对应的语言与用户的历史习惯语言不匹配时，将所述原始字符串翻译为所述历史习惯语言对应的字幕字符串，在与所述用户的历史习惯语言匹配时，按照所述地理位置信息对应的语言翻译所述原始字符串得到目标字符串；

所述第二发送模块，用于向数据分发服务器发送播放请求；

所述播放模块，用于播放所述原始视频流并同步显示所述字幕字符串；

所述翻译服务器用于在原始音频流的原始位置信息与播放终端的地理位置信息不同时，将所述原始字符串翻译为所述地理位置信息对应的字幕字符串；或，所述翻译服务器用于在所述地理位置信息对应的语言与用户的历史习惯语言不匹配时，将所述原始字符串翻译为所述历史习惯语言对应的字幕字符串，在与所述用户的历史习惯语言匹配时，按照所述地理位置信息对应的语言翻译所述原始字符串得到目标字符串。

9.一种音视频数据的传输装置，其特征在于，所述音视频数据的传输装置包括存储器以及处理器，所述存储器用于存储音视频数据的传输程序，所述存储器中的音视频数据的传输程序被所述处理器执行时实现如权利要求1-7中任一项所述的音视频数据的传输方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音视频数据的传输程序，所述音视频数据的传输程序被处理器执行时实现如权利要求1至7中任一项所述的音视频数据的传输方法的步骤。