CN115604535A - 视频数据处理方法及装置、存储介质、计算机设备 - Google Patents

视频数据处理方法及装置、存储介质、计算机设备 Download PDF

Info

Publication number
CN115604535A
CN115604535A CN202210492378.2A CN202210492378A CN115604535A CN 115604535 A CN115604535 A CN 115604535A CN 202210492378 A CN202210492378 A CN 202210492378A CN 115604535 A CN115604535 A CN 115604535A
Authority
CN
China
Prior art keywords
pushed
data
target
video
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210492378.2A
Other languages
English (en)
Inventor
刘超
董志
蔡家敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lu'an Keya Information Technology Co ltd
Original Assignee
Lu'an Keya Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lu'an Keya Information Technology Co ltd filed Critical Lu'an Keya Information Technology Co ltd
Priority to CN202210492378.2A priority Critical patent/CN115604535A/zh
Publication of CN115604535A publication Critical patent/CN115604535A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2355Processing of additional data, e.g. scrambling of additional data or processing content descriptors involving reformatting operations of additional data, e.g. HTML pages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/437Interfacing the upstream path of the transmission network, e.g. for transmitting client requests to a VOD server
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5018Thread allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种视频数据处理方法及装置、存储介质、计算机设备,该方法包括:基于应用运行终端的视频播放请求,通过源进程向应用运行终端推送源语言的初始视频数据;当接收到视频语言切换指令时,断开源进程与应用运行终端之间的连接,通过目标语言对应的目标进程建立与源进程之间的连接,并通过源进程向目标进程发送待推送视频数据;建立目标进程与应用运行终端之间的连接,结束源进程,利用目标进程将待推送视频数据解析为待推送图像数据和待推送声音数据;基于目标进程将待推送声音数据从源语言转换为目标语言,并将待推送图像数据以及转换后的待推送声音数据合成为目标推送视频数据,通过目标进程向应用运行终端推送目标推送视频数据。

Description

视频数据处理方法及装置、存储介质、计算机设备
技术领域
本申请涉及数据处理技术领域,尤其是涉及到一种视频数据处理方法及装置、存储介质、计算机设备。
背景技术
随着通信技术的不断发展,用户除了使用手机、平板电脑、台式电脑等智能终端设备进行通话或者查询信息之外,对其他功能的应用也越发广泛,目前随着视频直播平台、短视频平台的飞速发展,通过各类视频平台观看视频的用户遍布全球。
目前的视频观看过程中,视频生产者将录制的音频视频数据发送到视频服务器中,再由视频服务器将视频生产者录制的视频转发给视频观看者的终端进行播放。然而,观看视频的用户可能是世界各地的用户,并不能完全理解视频生产者上传的音频视频中的语言,导致观看视频体验差,视频平台的视频播放量难以提高。
发明内容
有鉴于此,本申请提供了一种视频数据处理方法及装置、存储介质、计算机设备,通过线程切换的方式,实现对视频数据的实时转换,有助于在应用服务器内实现视频语言的切换,通过线程之间数据传输,将待推送视频数据传递至目标线程中,以便及时对应用运行终端内尚未播放的视频进行语言转换,有助于快速切换语言。
根据本申请的一个方面,提供了一种视频数据处理方法,包括:
基于应用运行终端的视频播放请求,通过源进程向所述应用运行终端推送源语言的初始视频数据;
当接收到视频语言切换指令时,断开所述源进程与所述应用运行终端之间的连接,基于所述视频语言切换指令指示的目标语言,通过所述目标语言对应的目标进程建立与所述源进程之间的连接,并通过所述源进程向所述目标进程发送待推送视频数据;
建立所述目标进程与所述应用运行终端之间的连接,结束所述源进程,利用所述目标进程将所述待推送视频数据解析为待推送图像数据和待推送声音数据;
基于所述目标进程将所述待推送声音数据从所述源语言转换为所述目标语言,并将所述待推送图像数据以及转换后的待推送声音数据合成为目标推送视频数据,通过所述目标进程向所述应用运行终端推送所述目标推送视频数据。
可选地,所述基于所述目标进程将所述待推送声音数据从所述源语言转换为所述目标语言,具体包括:
基于所述目标进程,对所述待推送声音数据进行语音识别得到待翻译文本数据,以及对所述待推送声音数据进行声音特征识别得到声音特征信息;
将所述待翻译文本数据翻译为基于所述目标语言的翻译文本数据,并基于所述声音特征信息对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
可选地,所述声音特征信息包括音速特征、音量特征、音色特征、音高特征、语调特征以及韵律节奏特征中至少一种;
所述基于所述声音特征信息对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据,具体包括:
基于基准声音特征以及所述声音特征信息,对所述基准声音特征对应的基准声音参数进行调节,获得所述声音特征信息对应的声音特征参数,其中,所述基准声音参数包括基准音速参数、基准音量参数、基准音色参数、基准音高参数、基准语调参数以及基准韵律节奏参数;
利用语音合成技术,基于所述声音特征参数对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
可选地,所述将所述待推送图像数据以及转换后的待推送声音数据合成为目标推送视频数据,具体包括:
将所述待翻译文本数据和所述翻译文本数据作为所述待推送图像数据的字幕,逐帧为所述待推送图像数据添加字幕;
基于添加字幕后的待推送图像数据以及所述转换后的待推送声音数据,合成为所述目标推送视频数据。
可选地,所述将所述待翻译文本数据翻译为基于所述目标语言的翻译文本数据,具体包括:
通过所述目标线程,根据预设翻译线路对应的输入参数拼装规则对所述待翻译文本数据进行拼装,得到与所述待翻译文本数据对应的翻译输入数据;
调用所述预设翻译线路,将所述翻译输入数据输入至所述预设翻译线路中进行翻译,得到翻译输出数据;
根据所述预设翻译线路对应的输出参数解析规则,对所述翻译输出数据进行解析,得到所述翻译文本数据。
可选地,所述通过所述源进程向所述目标进程发送待推送视频数据,具体包括:
通过所述源进程向所述目标进程发送所述待推送视频数据以及已推送视频帧数;
相应地,所述建立所述目标进程与所述应用运行终端之间的连接之后,所述方法还包括:
通过所述目标进程从所述应用运行终端获取已播放视频帧数,并基于所述已播放视频帧数和所述已推送视频帧数,确定所述应用运行终端的当前缓存视频帧数;
通过所述目标进程获取与所述当前缓存视频帧数对应的终端缓存视频数据。
可选地,所述利用所述目标进程将所述待推送视频数据解析为待推送图像数据和待推送声音数据,具体包括:
利用所述目标进程,将所述待推送视频数据以及所述终端缓存视频数据解析为所述待推送图像数据和所述待推送声音数据。
根据本申请的另一方面,提供了一种视频数据处理装置,包括:
第一推送模块,用于基于应用运行终端的视频播放请求,通过源进程向所述应用运行终端推送源语言的初始视频数据;
连接模块,用于当接收到视频语言切换指令时,断开所述源进程与所述应用运行终端之间的连接,基于所述视频语言切换指令指示的目标语言,通过所述目标语言对应的目标进程建立与所述源进程之间的连接,并通过所述源进程向所述目标进程发送待推送视频数据;
进程切换模块,用于建立所述目标进程与所述应用运行终端之间的连接,结束所述源进程,利用所述目标进程将所述待推送视频数据解析为待推送图像数据和待推送声音数据;
第二推送模块,用于基于所述目标进程将所述待推送声音数据从所述源语言转换为所述目标语言,并将所述待推送图像数据以及转换后的待推送声音数据合成为目标推送视频数据,通过所述目标进程向所述应用运行终端推送所述目标推送视频数据。
可选地,所述第二推送模块,具体用于:
基于所述目标进程,对所述待推送声音数据进行语音识别得到待翻译文本数据,以及对所述待推送声音数据进行声音特征识别得到声音特征信息;
将所述待翻译文本数据翻译为基于所述目标语言的翻译文本数据,并基于所述声音特征信息对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
可选地,所述声音特征信息包括音速特征、音量特征、音色特征、音高特征、语调特征以及韵律节奏特征中至少一种;
所述第二推送模块,具体用于:
基于基准声音特征以及所述声音特征信息,对所述基准声音特征对应的基准声音参数进行调节,获得所述声音特征信息对应的声音特征参数,其中,所述基准声音参数包括基准音速参数、基准音量参数、基准音色参数、基准音高参数、基准语调参数以及基准韵律节奏参数;
利用语音合成技术,基于所述声音特征参数对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
可选地,所述第二推送模块,还用于:
将所述待翻译文本数据和所述翻译文本数据作为所述待推送图像数据的字幕,逐帧为所述待推送图像数据添加字幕;
基于添加字幕后的待推送图像数据以及所述转换后的待推送声音数据,合成为所述目标推送视频数据。
可选地,所述第二推送模块,还用于:
通过所述目标线程,根据预设翻译线路对应的输入参数拼装规则对所述待翻译文本数据进行拼装,得到与所述待翻译文本数据对应的翻译输入数据;
调用所述预设翻译线路,将所述翻译输入数据输入至所述预设翻译线路中进行翻译,得到翻译输出数据;
根据所述预设翻译线路对应的输出参数解析规则,对所述翻译输出数据进行解析,得到所述翻译文本数据。
可选地,所述连接模块,还用于:通过所述源进程向所述目标进程发送所述待推送视频数据以及已推送视频帧数;
相应地,所述装置还包括:
获取模块,用于:所述建立所述目标进程与所述应用运行终端之间的连接之后,通过所述目标进程从所述应用运行终端获取已播放视频帧数,并基于所述已播放视频帧数和所述已推送视频帧数,确定所述应用运行终端的当前缓存视频帧数;通过所述目标进程获取与所述当前缓存视频帧数对应的终端缓存视频数据。
可选地,所述进程切换模块,还用于:利用所述目标进程,将所述待推送视频数据以及所述终端缓存视频数据解析为所述待推送图像数据和所述待推送声音数据。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述视频数据处理方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述视频数据处理方法。
借由上述技术方案,本申请提供的一种视频数据处理方法及装置、存储介质、计算机设备,应用运行终端请求播放视频时,通过源进程向终端推送基于源语言的初始视频数据,当用户请求切换视频语言时,断开源进程与终端的连接,并建立用户请求的目标语言对应的目标进程与源进程之间的连接,通过源进程向目标进程中发送待推送视频数据,进一步,建立目标进程与终端的连接并退出源进程,利用目标进程将待推送视频数据转换为基于目标语言的目标推送数据,并向终端推送。本申请实施例通过线程切换的方式,实现对视频数据的实时转换,有助于在应用服务器内实现视频语言的切换,通过线程之间数据传输,将待推送视频数据传递至目标线程中,以便及时对应用运行终端内尚未播放的视频进行语言转换,有助于快速切换语言。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种视频数据处理方法的流程示意图;
图2示出了本申请实施例提供的一种视频数据处理装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种视频数据处理方法,如图1所示,该方法包括:
步骤101,基于应用运行终端的视频播放请求,通过源进程向所述应用运行终端推送源语言的初始视频数据。
本申请实施例可以应用于提供应用服务的服务器中,应用可提供视频播放功能,尤其适用于对直播视频数据的处理。用户可以通过应用运行终端使用应用服务,用户在应用服务中选择播放视频时,应用运行终端向应用服务器发送视频播放请求,应用服务器通过源进程向应用运行终端中推送用户所请求的初始视频数据,该初始视频数据基于源语言生成,应用运行终端接收到初始视频数据后,可以基于该数据生成视频进行播放。其中,源进程为分段式向应用运行终端提供基于源语言视频数据的进程。
步骤102,当接收到视频语言切换指令时,断开所述源进程与所述应用运行终端之间的连接,基于所述视频语言切换指令指示的目标语言,通过所述目标语言对应的目标进程建立与所述源进程之间的连接,并通过所述源进程向所述目标进程发送待推送视频数据。
用户在观看基于源语言的视频时,可以在应用服务的视频播放界面中选择语言切换功能,以便将视频的语言切换为用户所选的目标语言。当用户选择切换语言时,应用运行终端向应用服务器发送视频语言切换指令,应用服务器接收到该指令后,断开源进程与应用运行终端之间的连接,停止向应用运行终端传输基于源语言的视频数据,同时,基于用户所指示的目标语言,确定该目标语言对应的目标进程,并建立目标进程与源进程之间的连接,通过源进程向目标进程发送基于源语言的待推送视频数据,该待推送视频数据为源进程计划向应用运行终端进行推送但尚未推送的数据。其中,目标进程为分段式向应用运行终端提供基于目标语言视频数据的进程。
步骤103,建立所述目标进程与所述应用运行终端之间的连接,结束所述源进程,利用所述目标进程将所述待推送视频数据解析为待推送图像数据和待推送声音数据。
步骤104,基于所述目标进程将所述待推送声音数据从所述源语言转换为所述目标语言,并将所述待推送图像数据以及转换后的待推送声音数据合成为目标推送视频数据,通过所述目标进程向所述应用运行终端推送所述目标推送视频数据。
目标进程得到待推送视频数据之后,建立目标进程与应用运行终端之间的连接,并退出源进程。以便通过目标进程将基于源语言的待推送视频数据转换为目标语言后,向应用运行终端进行推送。在具体应用场景中,目标进程获得待推送视频数据后,先进行数据解析,将待推送视频数据解析为待推送图像数据和待推送声音数据,通过音频转换技术,将待推送声音数据从源语言转换为目标语言,再将转换成目标语言的待推送声音数据与解析得到的待推送图像数据进行合成,得到目标推送视频数据,最后通过目标进程将目标推送视频数据推送给应用运行终端中,以便应用运行终端播放基于目标语言的视频,实现对视频的语言切换。
通过应用本实施例的技术方案,应用运行终端请求播放视频时,通过源进程向终端推送基于源语言的初始视频数据,当用户请求切换视频语言时,断开源进程与终端的连接,并建立用户请求的目标语言对应的目标进程与源进程之间的连接,通过源进程向目标进程中发送待推送视频数据,进一步,建立目标进程与终端的连接并退出源进程,利用目标进程将待推送视频数据转换为基于目标语言的目标推送数据,并向终端推送。本申请实施例通过线程切换的方式,实现对视频数据的实时转换,有助于在应用服务器内实现视频语言的切换,通过线程之间数据传输,将待推送视频数据传递至目标线程中,以便及时对应用运行终端内尚未播放的视频进行语言转换,有助于快速切换语言。
在本申请实施例中,可选地,步骤104中“基于所述目标进程将所述待推送声音数据从所述源语言转换为所述目标语言”具体包括:
步骤104-1,基于所述目标进程,对所述待推送声音数据进行语音识别得到待翻译文本数据,以及对所述待推送声音数据进行声音特征识别得到声音特征信息;
步骤104-2,将所述待翻译文本数据翻译为基于所述目标语言的翻译文本数据,并基于所述声音特征信息对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
在该实施例中,接收到待推送声音数据后,先将该数据进行语音转译,得到与源语言对应的待翻译文本数据,即对基于源语言的待推送声音数据进行语音识别将语音数据转译为文本数据,进而为了实现对待推送声音数据的语言转换,将语音转译得到的待翻译文本数据进行翻译,将待翻译文本数据翻译为目标语言,得到翻译文本数据,例如可以将待翻译文本数据从中文翻译成英文、日文等,也可以从普通话翻译为方言等。
进一步,为了确保处理后的视频数据能够表现出自然的语音效果,避免过于生硬的声音,还可以基于待推送声音数据进行声音特征识别,并结合识别出的声音特征数据对翻译文本数据进行声音合成,以使得到的转换后的待推送声音数据不仅与目标语言匹配,还能够表现出与原来的声音数据特征相同的声音数据。
另外,得到翻译文本数据之后,还可以基获取翻译文本数据对应的文本语义参数,文本语义参数可以描述初始视频数据表达的语义信息,例如初始视频数据表达出作者开心的情绪,这种开心的情绪可以通过翻译文本的文本语义参数来表达。进而基于文本语义参数可以对预设的声音合成参数进行调整,使得调整后的声音合成参数能够通过声音的一些特征反应出文本语义,声音合成参数具体可以包括声音波动幅度、基频、语速、音量、句子间隔时长等等。例如开心时语速较快,句子间隔时长较短。
在本申请实施例中,可选地,步骤104-2中“将所述待翻译文本数据翻译为基于所述目标语言的翻译文本数据”具体包括:
通过所述目标线程,根据预设翻译线路对应的输入参数拼装规则对所述待翻译文本数据进行拼装,得到与所述待翻译文本数据对应的翻译输入数据;调用所述预设翻译线路,将所述翻译输入数据输入至所述预设翻译线路中进行翻译,得到翻译输出数据;根据所述预设翻译线路对应的输出参数解析规则,对所述翻译输出数据进行解析,得到所述翻译文本数据。
在该实施例中,首先获取预设翻译线路对应的输入参数拼装规则,然后按照该规则对待翻译文本数据进行拼装,得到翻译输入数据,并将该翻译输入数据作为预设翻译线路对应的输入参数,调用预设翻译线路,并将翻译输入数据输入至该线路中进行翻译,得到输出参数,即翻译输出数据,进一步,为了获得能够被计算机所识别的翻译文本数据,还需要按照预设翻译线路对应的输出参数解析规则对翻译输出数据进行解析,最终得到翻译文本数据,从而实现利用翻译线路将转译文本数据翻译成翻译文本数据,实现文本数据从源语言向目标语言的转换。其中,预设翻译线路可以为各种终端或浏览器的接口,例如百度翻译、谷歌翻译接口等,也可以为预设的翻译数据库接口。
在本申请实施例中,可选地,所述声音特征信息包括音速特征、音量特征、音色特征、音高特征、语调特征以及韵律节奏特征中至少一种;步骤104-2中“基于所述声音特征信息对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据”具体包括:
基于基准声音特征以及所述声音特征信息,对所述基准声音特征对应的基准声音参数进行调节,获得所述声音特征信息对应的声音特征参数,其中,所述基准声音参数包括基准音速参数、基准音量参数、基准音色参数、基准音高参数、基准语调参数以及基准韵律节奏参数;利用语音合成技术,基于所述声音特征参数对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
在该实施例中,识别出声音特征信息后,可以基于预设的基准声音特征与解析出的声音特征进行比对,并依据比对结果,对基准声音特征对应的声音特征参数进行调节,获得调节后的声音特征信息对应的声音特征参数,从而利用语言合成技术,例如TTS,依据声音特征参数对翻译文本数据进行声音合成,得到转换后的基于目标语言的待推送声音数据。
在本申请实施例中,可选地,步骤104中“将所述待推送图像数据以及转换后的待推送声音数据合成为目标推送视频数据”,具体包括:
步骤104-3,将所述待翻译文本数据和所述翻译文本数据作为所述待推送图像数据的字幕,逐帧为所述待推送图像数据添加字幕;
步骤104-4,基于添加字幕后的待推送图像数据以及所述转换后的待推送声音数据,合成为所述目标推送视频数据。
在该实施例中,还可以将目标语言对应的翻译文本数据作为字幕数据,利用该翻译文本数据、转换后的待推送声音数据以及待推送图像数据进行合成,得到目标推送视频数据,使得合成的视频数据不仅声音与观看用户的语言习惯匹配,字幕也与观看用户的语言习惯匹配,进一步提高了用户的视频观看体验。
在本申请实施例中,可选地,还包括:通过所述源进程向所述目标进程发送所述待推送视频数据以及已推送视频帧数。相应地,步骤 103“建立所述目标进程与所述应用运行终端之间的连接”之后还包括:通过所述目标进程从所述应用运行终端获取已播放视频帧数,并基于所述已播放视频帧数和所述已推送视频帧数,确定所述应用运行终端的当前缓存视频帧数;通过所述目标进程获取与所述当前缓存视频帧数对应的终端缓存视频数据。步骤103“利用所述目标进程将所述待推送视频数据解析为待推送图像数据和待推送声音数据”,具体包括:利用所述目标进程,将所述待推送视频数据以及所述终端缓存视频数据解析为所述待推送图像数据和所述待推送声音数据。
在该实施例中,源进程与目标进程建立连接后,还可以将自身记录的已推送视频帧数发送给目标进程,该已推送视频帧数描述了已经向应用运行终端推送的最后一帧视频数据的帧数。目标进程获得已推送视频帧数后,进一步向应用运行终端请求获取该终端对应的已播放视频帧数,由于视频是通过对视频帧进行缓存,再播放缓存视频帧的形式实现播放,因此已推送视频帧数和已播放视频帧数一般不同,为实现对视频语言的快速切换,目标进程还可以基于已推送视频帧和已播放视频帧,确定应用运行终端的当前缓存视频帧数,并从应用服务器获取与当前缓存视频帧数匹配的终端缓存视频数据,并将终端缓存视频数据以及从源进程获取的待推送视频数据,都作为目标进程要向应用运行终端进行推送的数据,也即将终端缓存视频数据也作为待推送视频数据进行解析。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种视频数据处理装置,如图2所示,该装置包括:
第一推送模块,用于基于应用运行终端的视频播放请求,通过源进程向所述应用运行终端推送源语言的初始视频数据;
连接模块,用于当接收到视频语言切换指令时,断开所述源进程与所述应用运行终端之间的连接,基于所述视频语言切换指令指示的目标语言,通过所述目标语言对应的目标进程建立与所述源进程之间的连接,并通过所述源进程向所述目标进程发送待推送视频数据;
进程切换模块,用于建立所述目标进程与所述应用运行终端之间的连接,结束所述源进程,利用所述目标进程将所述待推送视频数据解析为待推送图像数据和待推送声音数据;
第二推送模块,用于基于所述目标进程将所述待推送声音数据从所述源语言转换为所述目标语言,并将所述待推送图像数据以及转换后的待推送声音数据合成为目标推送视频数据,通过所述目标进程向所述应用运行终端推送所述目标推送视频数据。
可选地,所述第二推送模块,具体用于:
基于所述目标进程,对所述待推送声音数据进行语音识别得到待翻译文本数据,以及对所述待推送声音数据进行声音特征识别得到声音特征信息;
将所述待翻译文本数据翻译为基于所述目标语言的翻译文本数据,并基于所述声音特征信息对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
可选地,所述声音特征信息包括音速特征、音量特征、音色特征、音高特征、语调特征以及韵律节奏特征中至少一种;
所述第二推送模块,具体用于:
基于基准声音特征以及所述声音特征信息,对所述基准声音特征对应的基准声音参数进行调节,获得所述声音特征信息对应的声音特征参数,其中,所述基准声音参数包括基准音速参数、基准音量参数、基准音色参数、基准音高参数、基准语调参数以及基准韵律节奏参数;
利用语音合成技术,基于所述声音特征参数对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
可选地,所述第二推送模块,还用于:
将所述待翻译文本数据和所述翻译文本数据作为所述待推送图像数据的字幕,逐帧为所述待推送图像数据添加字幕;
基于添加字幕后的待推送图像数据以及所述转换后的待推送声音数据,合成为所述目标推送视频数据。
可选地,所述第二推送模块,还用于:
通过所述目标线程,根据预设翻译线路对应的输入参数拼装规则对所述待翻译文本数据进行拼装,得到与所述待翻译文本数据对应的翻译输入数据;
调用所述预设翻译线路,将所述翻译输入数据输入至所述预设翻译线路中进行翻译,得到翻译输出数据;
根据所述预设翻译线路对应的输出参数解析规则,对所述翻译输出数据进行解析,得到所述翻译文本数据。
可选地,所述连接模块,还用于:通过所述源进程向所述目标进程发送所述待推送视频数据以及已推送视频帧数;
相应地,所述装置还包括:
获取模块,用于:所述建立所述目标进程与所述应用运行终端之间的连接之后,通过所述目标进程从所述应用运行终端获取已播放视频帧数,并基于所述已播放视频帧数和所述已推送视频帧数,确定所述应用运行终端的当前缓存视频帧数;通过所述目标进程获取与所述当前缓存视频帧数对应的终端缓存视频数据。
可选地,所述进程切换模块,还用于:利用所述目标进程,将所述待推送视频数据以及所述终端缓存视频数据解析为所述待推送图像数据和所述待推送声音数据。
需要说明的是,本申请实施例提供的一种视频数据处理装置所涉及各功能单元的其他相应描述,可以参考图1方法中的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1所示的视频数据处理方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是 CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1所示的方法,以及图2所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1所示的视频数据处理方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘 (Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现应用运行终端请求播放视频时,通过源进程向终端推送基于源语言的初始视频数据,当用户请求切换视频语言时,断开源进程与终端的连接,并建立用户请求的目标语言对应的目标进程与源进程之间的连接,通过源进程向目标进程中发送待推送视频数据,进一步,建立目标进程与终端的连接并退出源进程,利用目标进程将待推送视频数据转换为基于目标语言的目标推送数据,并向终端推送。本申请实施例通过线程切换的方式,实现对视频数据的实时转换,有助于在应用服务器内实现视频语言的切换,通过线程之间数据传输,将待推送视频数据传递至目标线程中,以便及时对应用运行终端内尚未播放的视频进行语言转换,有助于快速切换语言。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (16)

1.一种视频数据处理方法,其特征在于,包括:
基于应用运行终端的视频播放请求,通过源进程向所述应用运行终端推送源语言的初始视频数据;
当接收到视频语言切换指令时,断开所述源进程与所述应用运行终端之间的连接,基于所述视频语言切换指令指示的目标语言,通过所述目标语言对应的目标进程建立与所述源进程之间的连接,并通过所述源进程向所述目标进程发送待推送视频数据;
建立所述目标进程与所述应用运行终端之间的连接,结束所述源进程,利用所述目标进程将所述待推送视频数据解析为待推送图像数据和待推送声音数据;
基于所述目标进程将所述待推送声音数据从所述源语言转换为所述目标语言,并将所述待推送图像数据以及转换后的待推送声音数据合成为目标推送视频数据,通过所述目标进程向所述应用运行终端推送所述目标推送视频数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标进程将所述待推送声音数据从所述源语言转换为所述目标语言,具体包括:
基于所述目标进程,对所述待推送声音数据进行语音识别得到待翻译文本数据,以及对所述待推送声音数据进行声音特征识别得到声音特征信息;
将所述待翻译文本数据翻译为基于所述目标语言的翻译文本数据,并基于所述声音特征信息对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
3.根据权利要求2所述的方法,其特征在于,所述声音特征信息包括音速特征、音量特征、音色特征、音高特征、语调特征以及韵律节奏特征中至少一种;
所述基于所述声音特征信息对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据,具体包括:
基于基准声音特征以及所述声音特征信息,对所述基准声音特征对应的基准声音参数进行调节,获得所述声音特征信息对应的声音特征参数,其中,所述基准声音参数包括基准音速参数、基准音量参数、基准音色参数、基准音高参数、基准语调参数以及基准韵律节奏参数;
利用语音合成技术,基于所述声音特征参数对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
4.根据权利要求2所述的方法,其特征在于,所述将所述待推送图像数据以及转换后的待推送声音数据合成为目标推送视频数据,具体包括:
将所述待翻译文本数据和所述翻译文本数据作为所述待推送图像数据的字幕,逐帧为所述待推送图像数据添加字幕;
基于添加字幕后的待推送图像数据以及所述转换后的待推送声音数据,合成为所述目标推送视频数据。
5.根据权利要求2所述的方法,其特征在于,所述将所述待翻译文本数据翻译为基于所述目标语言的翻译文本数据,具体包括:
通过所述目标线程,根据预设翻译线路对应的输入参数拼装规则对所述待翻译文本数据进行拼装,得到与所述待翻译文本数据对应的翻译输入数据;
调用所述预设翻译线路,将所述翻译输入数据输入至所述预设翻译线路中进行翻译,得到翻译输出数据;
根据所述预设翻译线路对应的输出参数解析规则,对所述翻译输出数据进行解析,得到所述翻译文本数据。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述通过所述源进程向所述目标进程发送待推送视频数据,具体包括:
通过所述源进程向所述目标进程发送所述待推送视频数据以及已推送视频帧数;
相应地,所述建立所述目标进程与所述应用运行终端之间的连接之后,所述方法还包括:
通过所述目标进程从所述应用运行终端获取已播放视频帧数,并基于所述已播放视频帧数和所述已推送视频帧数,确定所述应用运行终端的当前缓存视频帧数;
通过所述目标进程获取与所述当前缓存视频帧数对应的终端缓存视频数据。
7.根据权利要求6所述的方法,其特征在于,所述利用所述目标进程将所述待推送视频数据解析为待推送图像数据和待推送声音数据,具体包括:
利用所述目标进程,将所述待推送视频数据以及所述终端缓存视频数据解析为所述待推送图像数据和所述待推送声音数据。
8.一种视频数据处理装置,其特征在于,包括:
第一推送模块,用于基于应用运行终端的视频播放请求,通过源进程向所述应用运行终端推送源语言的初始视频数据;
连接模块,用于当接收到视频语言切换指令时,断开所述源进程与所述应用运行终端之间的连接,基于所述视频语言切换指令指示的目标语言,通过所述目标语言对应的目标进程建立与所述源进程之间的连接,并通过所述源进程向所述目标进程发送待推送视频数据;
进程切换模块,用于建立所述目标进程与所述应用运行终端之间的连接,结束所述源进程,利用所述目标进程将所述待推送视频数据解析为待推送图像数据和待推送声音数据;
第二推送模块,用于基于所述目标进程将所述待推送声音数据从所述源语言转换为所述目标语言,并将所述待推送图像数据以及转换后的待推送声音数据合成为目标推送视频数据,通过所述目标进程向所述应用运行终端推送所述目标推送视频数据。
9.根据权利要求8所述的装置,其特征在于,所述第二推送模块,具体用于:
基于所述目标进程,对所述待推送声音数据进行语音识别得到待翻译文本数据,以及对所述待推送声音数据进行声音特征识别得到声音特征信息;
将所述待翻译文本数据翻译为基于所述目标语言的翻译文本数据,并基于所述声音特征信息对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
10.根据权利要求9所述的装置,其特征在于,所述声音特征信息包括音速特征、音量特征、音色特征、音高特征、语调特征以及韵律节奏特征中至少一种;
所述第二推送模块,具体用于:
基于基准声音特征以及所述声音特征信息,对所述基准声音特征对应的基准声音参数进行调节,获得所述声音特征信息对应的声音特征参数,其中,所述基准声音参数包括基准音速参数、基准音量参数、基准音色参数、基准音高参数、基准语调参数以及基准韵律节奏参数;
利用语音合成技术,基于所述声音特征参数对所述翻译文本数据进行声音合成,得到所述转换后的待推送声音数据。
11.根据权利要求9所述的装置,其特征在于,所述第二推送模块,还用于:
将所述待翻译文本数据和所述翻译文本数据作为所述待推送图像数据的字幕,逐帧为所述待推送图像数据添加字幕;
基于添加字幕后的待推送图像数据以及所述转换后的待推送声音数据,合成为所述目标推送视频数据。
12.根据权利要求9所述的装置,其特征在于,所述第二推送模块,还用于:
通过所述目标线程,根据预设翻译线路对应的输入参数拼装规则对所述待翻译文本数据进行拼装,得到与所述待翻译文本数据对应的翻译输入数据;
调用所述预设翻译线路,将所述翻译输入数据输入至所述预设翻译线路中进行翻译,得到翻译输出数据;
根据所述预设翻译线路对应的输出参数解析规则,对所述翻译输出数据进行解析,得到所述翻译文本数据。
13.根据权利要求8至12中任一项所述的装置,其特征在于,所述连接模块,还用于:通过所述源进程向所述目标进程发送所述待推送视频数据以及已推送视频帧数;
相应地,所述装置还包括:
获取模块,用于:所述建立所述目标进程与所述应用运行终端之间的连接之后,通过所述目标进程从所述应用运行终端获取已播放视频帧数,并基于所述已播放视频帧数和所述已推送视频帧数,确定所述应用运行终端的当前缓存视频帧数;通过所述目标进程获取与所述当前缓存视频帧数对应的终端缓存视频数据。
14.根据权利要求13所述的装置,其特征在于,所述进程切换模块,还用于:
利用所述目标进程,将所述待推送视频数据以及所述终端缓存视频数据解析为所述待推送图像数据和所述待推送声音数据。
15.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
16.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。
CN202210492378.2A 2022-05-07 2022-05-07 视频数据处理方法及装置、存储介质、计算机设备 Pending CN115604535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210492378.2A CN115604535A (zh) 2022-05-07 2022-05-07 视频数据处理方法及装置、存储介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210492378.2A CN115604535A (zh) 2022-05-07 2022-05-07 视频数据处理方法及装置、存储介质、计算机设备

Publications (1)

Publication Number Publication Date
CN115604535A true CN115604535A (zh) 2023-01-13

Family

ID=84841835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210492378.2A Pending CN115604535A (zh) 2022-05-07 2022-05-07 视频数据处理方法及装置、存储介质、计算机设备

Country Status (1)

Country Link
CN (1) CN115604535A (zh)

Similar Documents

Publication Publication Date Title
US11917344B2 (en) Interactive information processing method, device and medium
WO2022121601A1 (zh) 一种直播互动方法、装置、设备及介质
KR101180877B1 (ko) 소스 데이터로부터 오디오/비디오 데이터로의 시맨틱 데이터 변환을 위한 방법, 장치 및 컴퓨터 프로그램 제품
EP4195668A1 (en) Virtual video livestreaming processing method and apparatus, storage medium, and electronic device
US10991380B2 (en) Generating visual closed caption for sign language
CN108877804B (zh) 语音服务方法、系统、电子设备及存储介质
JP6681450B2 (ja) 情報処理方法および装置
KR20060091435A (ko) 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템
US8340797B2 (en) Method and system for generating and processing digital content based on text-to-speech conversion
US20240013811A1 (en) Video processing method and apparatus
CN109743529A (zh) 一种多功能视频会议系统
CN112562638A (zh) 语音预览的方法、装置及电子设备
CN113923502B (zh) 直播视频播放方法及装置
WO2024087732A1 (zh) 直播数据处理方法及系统
KR101351264B1 (ko) 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법
CN112562733A (zh) 媒体数据处理方法及装置、存储介质、计算机设备
CN115604535A (zh) 视频数据处理方法及装置、存储介质、计算机设备
WO2023024803A1 (zh) 动态封面生成方法、装置、电子设备、介质及程序产品
CN109300472A (zh) 一种语音识别方法、装置、设备及介质
KR20220135203A (ko) 스트리밍 방송에서의 자동 추천 음악 지원 시스템
JP2008139977A (ja) ネットワークシステム
CN115967833A (zh) 视频生成方法、装置、设备计存储介质
CN114333758A (zh) 语音合成方法、装置、计算机设备、存储介质和产品
US11086592B1 (en) Distribution of audio recording for social networks
CN114341866A (zh) 同声传译方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication