CN110730360A - 视频上传、播放的方法、装置、客户端设备及存储介质 - Google Patents
视频上传、播放的方法、装置、客户端设备及存储介质 Download PDFInfo
- Publication number
- CN110730360A CN110730360A CN201911023915.3A CN201911023915A CN110730360A CN 110730360 A CN110730360 A CN 110730360A CN 201911023915 A CN201911023915 A CN 201911023915A CN 110730360 A CN110730360 A CN 110730360A
- Authority
- CN
- China
- Prior art keywords
- video
- target
- sign language
- virtual character
- uploaded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000009471 action Effects 0.000 claims abstract description 225
- 238000004891 communication Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 208000032041 Hearing impaired Diseases 0.000 abstract description 34
- 238000003062 neural network model Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本公开关于视频上传、播放的方法、装置、设备及存储介质,视频上传的方法应用于视频生成客户端,可以包括:将待上传视频中的语音数据转为目标文字数据;根据预先建立的文字数据与手语指令的对应关系,确定目标文字数据对应的至少一条目标手语指令;按照目标手语指令,确定预设的目标虚拟人物手语动作视频;将待上传视频和目标虚拟人物手语动作视频上传至服务器,以使视频观看客户端,在播放待上传视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。可见,在本公开实施例中,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效获取信息,提高了听障人士的观看体验。
Description
技术领域
本公开涉及视频上传、视频播放的技术领域,尤其涉及视频上传、视频播放的方法、装置、客户端设备及存储介质。
背景技术
随着视频自媒体的迅速发展,视频直播和短视频等形式的自媒体成为传递信息的主要工具。但是听障人士由于患有残疾性听力损失,在观看视频时,无法有效的从视频直播和短视频等形式的自媒体中获取信息,听障人士的观看体验较低。
发明内容
本公开提供视频上传、视频播放的方法、装置、客户端设备及存储介质,以至少解决相关技术中听障人士无法有效的从直播和短视频等形式的自媒体中获取信息,听障人士的观看体验较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种视频上传的方法,应用于视频生成客户端设备,包括:
将待上传视频中的语音数据转为目标文字数据;
根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
将所述待上传视频和目标虚拟人物手语动作视频上传至服务器,以使视频观看客户端从服务器获得所述待上传视频及目标虚拟人物手语动作视频,在播放所述待上传视频时,通过预设的播放窗口播放所述目标虚拟人物手语动作视频。
可选的,所述按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频的步骤,包括:
根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令与所述待上传视频中视频帧画面的对应关系;
基于各个目标手语指令、各个目标手语指令与所述待上传视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
可选的,所述将待上传视频中的语音数据转为目标文字数据的步骤,包括:
获取待上传视频;
从所述待上传视频中获取语音数据作为目标语音数据;
将所述目标语音数据转为目标文字数据。
可选的,在所述从所述待上传视频中获取语音数据作为目标语音数据的步骤之前,还包括:
判断当前是否为上传虚拟人物手语动作视频的上传状态;所述上传状态,包括上传虚拟人物手语动作视频状态,和非上传虚拟人物手语动作视频状态,由用户预先设置;
如果是,则执行所述从所述待上传视频中获取语音数据作为目标语音数据的步骤。
可选的,所述从所述待上传视频中获取语音数据作为目标语音数据的步骤,包括:
将所述待上传视频中的音频数据实时转换为非压缩的波形文件,输入到预先训练好的神经网络模型;
获取所述神经网络模型预测出的目标波形文件;所述神经网络模型,用于对非压缩的波形文件进行切割,得到语音数据中各个语句对应的目标波形文件作为目标语音数据。
可选的,所述将所述目标语音数据转为目标文字数据的步骤,包括:
将所述目标波形文件,按照预设的切分规则切分成各个目标帧文件;
对所述各个目标帧文件提取声学特征,获得所述各个目标帧文件的各个目标多维向量;
基于预设的多维向量与文字数据之间的对应关系,将所述各个目标多维向量转换为目标文字数据。
可选的,所述文字数据与手语指令的对应关系的建立过程包括:
获得基于手语规则设置的每个手语词汇对应的手语指令;
获得设置的虚拟人物形象以及每个手语指令对应的虚拟人物形象手部的动作轨迹;
将各个手语词汇对应的文字数据与手语指令对应保存。
可选的,所述根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令与所述待上传视频中视频帧画面的对应关系的步骤,包括:
根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令对应的虚拟人物形象手部的动作轨迹与所述待上传视频中视频帧画面的对应关系。
可选的,所述基于各个目标手语指令、各个目标手语指令与所述待上传视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频的步骤,包括:
基于所述虚拟人物形象、所述目标手语指令对应的虚拟人物形象手部的动作轨迹、所述虚拟人物形象手部的动作轨迹与所述待上传视频中视频帧画面的对应关系,生成目标虚拟人物手语动作视频。
根据本公开实施例的第二方面,提供一种视频播放的方法,应用于视频观看客户端设备,包括:
从服务器获得待播放视频及目标虚拟人物手语动作视频;所述目标虚拟人物手语动作视频,为:视频生成客户端,将待上传视频中的语音数据转为目标文字数据;根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;按照所述目标手语指令和预设的虚拟人物确定的;
在播放所述待播放视频时显示预设的播放窗口;
在所述播放窗口中播放所述目标虚拟人物手语动作视频。
可选的,所述方法还包括:
检测是否接收到关闭所述目标虚拟人物手语动作视频的指令;
如果是,则关闭所述预设的播放窗口,停止播放所述目标虚拟人物手语动作视频。
根据本公开实施例的第三方面,提供一种视频播放的方法,应用于视频观看客户端设备,包括:
将待播放视频中的语音数据转为目标文字数据;
根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
在播放所述待播放视频时,显示预设的播放窗口;
在所述播放窗口中播放所述目标虚拟人物手语动作视频。
可选的,所述按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频的步骤,包括:
根据待播放视频中语音数据对应的播放时间,确定各个目标手语指令与所述待播放视频中视频帧画面的对应关系;
基于各个目标手语指令、各个目标手语指令与所述待播放视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
可选的,所述将待播放视频中的语音数据转为目标文字数据的步骤,包括:
获得待播放视频;
从所述待播放视频中获取语音数据作为目标语音数据;
将所述目标语音数据转为目标文字数据。
可选的,在所述从所述待播放视频中获取语音数据作为目标语音数据的步骤之前,还包括:
判断当前是否为播放虚拟人物手语动作视频的播放状态;所述播放状态,包括播放虚拟人物手语动作视频状态,和非播放虚拟人物手语动作视频状态;
如果是,则执行所述从所述待播放视频中获取语音数据作为目标语音数据的步骤。
可选的,所述从所述待播放视频中获取语音数据作为目标语音数据的步骤,包括:
将所述待播放视频中的音频数据实时转换为非压缩的波形文件,输入到预先训练好的神经网络模型;
获取所述神经网络模型预测出的目标波形文件;所述神经网络模型,用于对非压缩的波形文件进行切割,得到语音数据中各个语句对应的目标波形文件作为目标语音数据。
可选的,所述将所述目标语音数据转为目标文字数据的步骤,包括:
将所述目标波形文件,按照预设的切分规则切分成各个目标帧文件;
对所述各个目标帧文件提取声学特征,获得所述各个目标帧文件的各个目标多维向量;
基于预设的多维向量与文字数据之间的对应关系,将所述各个目标多维向量转换为目标文字数据。
可选的,所述文字数据与手语指令的对应关系的建立过程包括:
获得基于手语规则设置的每个手语词汇对应的手语指令;
获得设置的虚拟人物形象以及每个手语指令对应的虚拟人物形象手部的动作轨迹;
将各个手语词汇对应的文字数据与手语指令对应保存。
可选的,所述根据待播放视频中语音数据对应的播放时间,确定各个目标手语指令与所述待播放视频中视频帧画面的对应关系的步骤,包括:
根据待播放视频中语音数据对应的播放时间,确定各个目标手语指令对应的虚拟人物形象手部的动作轨迹与所述待播放视频中视频帧画面的对应关系。
可选的,所述基于各个目标手语指令、各个目标手语指令与所述待播放视频中视频帧画面的对应关系及预设的虚拟人物形象,生成目标虚拟人物手语动作视频的步骤,包括:
基于所述虚拟人物形象、所述目标手语指令对应的虚拟人物形象手部的动作轨迹、所述虚拟人物形象手部的动作轨迹与所述待播放视频中视频帧画面的对应关系,生成目标虚拟人物手语动作视频。
根据本公开实施例的第四方面,提供一种视频上传的装置,应用于视频生成客户端设备,包括:
第一目标文字数据转换单元,被配置为将待上传视频中的语音数据转为目标文字数据;
第一目标手语指令确定单元,被配置为根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
第一手语动作视频确定单元,被配置为按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
上传单元,被配置为将所述待上传视频和目标虚拟人物手语动作视频上传至服务器,以使视频观看客户端从服务器获得所述待上传视频及目标虚拟人物手语动作视频,在播放所述待上传视频时,通过预设的播放窗口播放所述目标虚拟人物手语动作视频。
可选的,所述第一手语动作视频确定单元,包括:
第一对应关系确定模块,被配置为根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令与所述待上传视频中视频帧画面的对应关系;
第一手语动作视频生成模块,被配置为基于各个目标手语指令、各个目标手语指令与所述待上传视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
可选的,所述第一目标文字数据转换单元,包括:
视频获取模块,被配置为获取待上传视频;
第一目标语音数据获取模块,被配置为从所述待上传视频中获取语音数据作为目标语音数据;
第一目标文字数据转换模块,被配置为将所述目标语音数据转为目标文字数据。
可选的,所述装置,还包括:
第一判断模块,被配置为在所述第一目标语音数据获取模块目标语音数据获取模块从所述待上传视频中获取语音数据作为目标语音数据之前,判断当前是否为上传虚拟人物手语动作视频的上传状态;所述上传状态,包括上传虚拟人物手语动作视频状态,和非上传虚拟人物手语动作视频状态,由用户预先设置;如果是,则执行所述从所述待上传视频中获取语音数据作为目标语音数据的步骤。
可选的,所述第一目标语音数据获取模块,具体被配置为:
将所述待上传视频中的音频数据实时转换为非压缩的波形文件,输入到预先训练好的神经网络模型;
获取所述神经网络模型预测出的目标波形文件;所述神经网络模型,用于对非压缩的波形文件进行切割,得到语音数据中各个语句对应的目标波形文件作为目标语音数据。
可选的,所述第一目标文字数据转换模块,具体被配置为:
将所述目标波形文件,按照预设的切分规则切分成各个目标帧文件;
对所述各个目标帧文件提取声学特征,获得所述各个目标帧文件的各个目标多维向量;
基于预设的多维向量与文字数据之间的对应关系,将所述各个目标多维向量转换为目标文字数据。
可选的,所述装置,还包括:第一对应关系建立单元;
所述第一对应关系建立单元,具体被配置为:
获得基于手语规则设置的每个手语词汇对应的手语指令;
获得设置的虚拟人物形象以及每个手语指令对应的虚拟人物形象手部的动作轨迹;
将各个手语词汇对应的文字数据与手语指令对应保存。
可选的,所述第一对应关系确定模块,具体被配置为:
根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令对应的虚拟人物形象手部的动作轨迹与所述待上传视频中视频帧画面的对应关系。
可选的,所述第一手语动作视频生成模块,具体被配置为:
基于所述虚拟人物形象、所述目标手语指令对应的虚拟人物形象手部的动作轨迹、所述虚拟人物形象手部的动作轨迹与所述待上传视频中视频帧画面的对应关系,生成目标虚拟人物手语动作视频。
根据本公开实施例的第五方面,提供一种视频播放的装置,应用于视频观看客户端设备,包括:
第一手语动作视频获得单元,被配置为从服务器获得待播放视频及目标虚拟人物手语动作视频;所述目标虚拟人物手语动作视频,为:视频生成客户端,将待上传视频中的语音数据转为目标文字数据;根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;按照所述目标手语指令和预设的虚拟人物确定的;
第一播放窗口显示单元,被配置为在播放所述待播放视频时显示预设的播放窗口;
第一手语动作视频播放单元,被配置为在所述播放窗口中播放所述目标虚拟人物手语动作视频。
可选的,所述装置还包括:
第一手语动作视频关闭指令检测单元,被配置为检测是否接收到关闭所述目标虚拟人物手语动作视频的指令;如果是,则关闭所述预设的播放窗口,停止播放所述目标虚拟人物手语动作视频。
根据本公开实施例的第六方面,提供一种视频播放的装置,应用于视频观看客户端设备,包括:
第二目标文字数据转换单元,被配置为将待播放视频中的语音数据转为目标文字数据;
第二目标手语指令确定单元,被配置为根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
第二手语动作视频确定单元,被配置为按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
第二播放窗口显示单元,被配置为在播放所述待播放视频时,显示预设的播放窗口;
第二手语动作视频播放单元,被配置为在所述播放窗口中播放所述目标虚拟人物手语动作视频。
可选的,所述第二手语动作视频确定单元,包括:
第二对应关系确定模块,被配置为根据待播放视频中语音数据对应的播放时间,确定各个目标手语指令与所述待播放视频中视频帧画面的对应关系;
第二手语动作视频生成模块,被配置为基于各个目标手语指令、各个目标手语指令与所述待播放视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
可选的,所述第二目标文字数据转换单元,包括:
视频获得模块,被配置为获得待播放视频;
第二目标语音数据获取模块,被配置为从所述待播放视频中获取语音数据作为目标语音数据;
第二目标文字数据转换模块,被配置为将所述目标语音数据转为目标文字数据。
可选的,所述装置,还包括:
第二判断模块,被配置为在所述第二目标语音数据获取模块从所述待播放视频中获取语音数据作为目标语音数据之前,判断当前是否为播放虚拟人物手语动作视频的播放状态;所述播放状态,包括播放虚拟人物手语动作视频状态,和非播放虚拟人物手语动作视频状态;如果是,则执行所述从所述待播放视频中获取语音数据作为目标语音数据的步骤。
可选的,所述第二目标语音数据获取模块,具体被配置为:
将所述待播放视频中的音频数据实时转换为非压缩的波形文件,输入到预先训练好的神经网络模型;
获取所述神经网络模型预测出的目标波形文件;所述神经网络模型,用于对非压缩的波形文件进行切割,得到语音数据中各个语句对应的目标波形文件作为目标语音数据。
可选的,所述第二目标文字数据转换模块,具体被配置为:
将所述目标波形文件,按照预设的切分规则切分成各个目标帧文件;
对所述各个目标帧文件提取声学特征,获得所述各个目标帧文件的各个目标多维向量;
基于预设的多维向量与文字数据之间的对应关系,将所述各个目标多维向量转换为目标文字数据。
可选的,所述装置,还包括:第二对应关系建立单元;
所述第二对应关系建立单元,具体被配置为:
获得基于手语规则设置的每个手语词汇对应的手语指令;
获得设置的虚拟人物形象以及每个手语指令对应的虚拟人物形象手部的动作轨迹;
将各个手语词汇对应的文字数据与手语指令对应保存。
可选的,所述第二对应关系确定模块,具体被配置为:
根据待播放视频中语音数据对应的播放时间,确定各个目标手语指令对应的虚拟人物形象手部的动作轨迹与所述待播放视频中视频帧画面的对应关系。
可选的,所述第二手语动作视频生成模块,具体被配置为:
基于所述虚拟人物形象、所述目标手语指令对应的虚拟人物形象手部的动作轨迹、所述虚拟人物形象手部的动作轨迹与所述待播放视频中视频帧画面的对应关系,生成目标虚拟人物手语动作视频。
根据本公开实施例的第七方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述视频上传任一所述的方法步骤;或实现上述视频播放任一所述的方法步骤。
根据本公开实施例的第八方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一视频上传的方法的步骤;或实现上述任一视频播放的方法的步骤。
根据本公开实施例的第九方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一视频上传的方法;或执行上述任一视频播放的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:应用本公开实施例,实现了在播放待上传视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1a是根据一示例性实施例示出的一种视频上传的方法,应用于视频生成客户端的流程图;
图1b为图1a所示实施例中步骤S101的一种具体流程图;
图2是根据一示例性实施例示出的一种建立文字数据与手语指令的对应关系的过程的流程图;
图3是根据一示例性实施例示出的另一种视频上传的方法,应用于视频生成客户端的流程图;
图4是根据一示例性实施例示出的一种视频播放的方法,应用于视频观看客户端的流程图;
图5是根据一示例性实施例示出的另一种视频播放的方法,应用于视频观看客户端的流程图;
图6是根据一示例性实施例示出的再一种视频播放的方法,应用于视频观看客户端的流程图;
图7是根据一示例性实施例示出的一种视频上传的装置,应用于视频生成客户端的装置的框图;
图8是根据一示例性实施例示出的一种视频播放的装置,应用于视频观看客户端的装置的框图;
图9是根据一示例性实施例示出的再一种视频播放的装置,应用于视频观看客户端的装置的框图;
图10是根据一示例性实施例示出的一种客户端设备的框图;
图11是根据一示例性实施例示出的一种用于视频上传或视频播放的设备的框图;
图12是根据一示例性实施例示出的另一种用于视频上传或视频播放的设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了解决相关技术中听障人士无法有效的从直播和短视频等形式的自媒体中获取信息,听障人士的观看体验较低的问题,本公开实施例提供了视频上传、视频播放的方法、装置、设备及存储介质。本公开实施例所提供的视频上传、视频播放的方法,可以应用于任意需要视频上传、视频播放的客户端设备,如:电脑或移动终端等,在此不做具体限定。
为了听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,本发明实施例提供了两种实现方式。
第一种:在待上传视频生成过程中,同时生成目标虚拟人物手语动作视频,将待上传视频和目标虚拟人物手语动作视频都上传到服务器。这样,在视频播放时,可以从服务器获得所述待上传视频及目标虚拟人物手语动作视频,在播放所述待上传视频时,通过预设的播放窗口播放所述目标虚拟人物手语动作视频。
第二种,不在视频生成的过程同时生成目标虚拟人物手语动作视频,而仅在视频播放时,可以在从服务器获得待播放视频后,生成目标虚拟人物手语动作视频,在播放所述待播放视频时,通过预设的播放窗口播放所述目标虚拟人物手语动作视频。
以下分别进行详细说明。
首先,对第一种实现方式进行详细说明。
图1a是根据一示例性实施例示出的一种视频上传的方法的流程图,如图1a所示,该视频上传的方法,应用于视频生成客户端设备,包括以下步骤:
步骤S101,将待上传视频中的语音数据转为目标文字数据。
步骤S102,根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令。
可实施的,可以预先按照建立文字数据与手语指令的对应关系的过程,建立文字数据与手语指令的对应关系。
步骤S103,按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频。
可实施的,在一种具体的实施方式中,可以先根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令与所述待上传视频中视频帧画面的对应关系;再基于各个目标手语指令、各个目标手语指令与所述待上传视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
步骤S104,将所述待上传视频和目标虚拟人物手语动作视频上传至服务器,以使视频观看客户端从服务器获得所述待上传视频及目标虚拟人物手语动作视频,在播放所述待上传视频时,通过预设的播放窗口播放所述目标虚拟人物手语动作视频。
可见,应用本公开实施例,实现了在播放待上传视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
具体的,图1a所示实施例中步骤S101的具体实现过程,可以参见图1b,图1b为图1a所示实施例中步骤S101的一种具体流程图,包括:
步骤S1011,获取待上传视频。
可实施的,视频生成客户端设备可以获取待上传视频,该待上传视频可以是直播过程中的待上传视频,也可以是预先录制好的短视频,也可以是其它视频,在这里不做具体限定。
步骤S1012,从所述待上传视频中获取语音数据作为目标语音数据。
可实施的,可以将所述待上传视频中的音频数据实时转换为非压缩的波形文件,输入到预先训练好的神经网络模型;获取所述神经网络模型预测出的目标波形文件;所述神经网络模型,用于对非压缩的波形文件进行切割,得到语音数据中各个语句对应的目标波形文件作为目标语音数据。
其中,神经网络模型的训练过程具体可以包括:
将样本波形文件输入到待训练的当前神经网络模型;获取当前神经网络模型预测出的各个目标波形文件;根据人工预先标注的目标波形文件和当前神经网络模型预测的各个目标波形文件,及损失函数计算损失值;
根据损失值判断当前神经网络模型是否收敛;如果收敛,则当前神经网络模型为训练完成的神经网络模型;如果未收敛,则调整当前神经网络模型的网络参数,返回所述将将样本波形文件输入到待训练的当前神经网络模型的步骤。
其中,人工预先标注的目标波形文件可以为:将样本波形文件中的静音时间超过预设阈值的位置,作为当前切割位置,在该当前切割位置对样本波形文件进行切割,获取当前切割位置至上一次切割位置的文件作为目标波形文件;将当前切割位置作为上一次切割位置,继续对样本波形文件进行切割,直到样本波形文件切割完成。
步骤S1013,将所述目标语音数据转为目标文字数据。
可实施的,可以将所述目标波形文件,按照预设的切分规则切分成各个目标帧文件;对所述各个目标帧文件提取声学特征,获得所述各个目标帧文件的各个目标多维向量;基于预设的多维向量与文字数据之间的对应关系,将所述各个目标多维向量转换为目标文字数据。
可见,应用本实施例,可以将待上传视频中的语音数据转为目标文字数据,进而实现了在播放待上传视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
可实施的,上述实施例中提到的建立文字数据与手语指令的对应关系的过程,可以如图2所示。
图2是根据一示例性实施例示出的一种建立文字数据与手语指令的对应关系的过程的流程图,可以包括:
步骤S201,获得基于手语规则设置的每个手语词汇对应的手语指令。
可实施的,可以基于手语语法规则,设置每个手语词汇对应的手语指令。
步骤S202,获得设置的虚拟人物形象以及每个手语指令对应的虚拟人物形象手部的动作轨迹。
可实施的,可以预先设置虚拟人物形象,将每个手语指令分别对应虚拟人物形象手部的各个动作轨迹。
步骤S203,将各个手语词汇对应的文字数据与手语指令对应保存。
实际应用中,可以针对每个手语指令,编写对应的处理程序,该处理程序用来控制虚拟人物形象的手部动作。例如:对于“我”这个词语,设置对应的手语指令是“生成“我”字的手语”。对应的处理程序中,就包含控制虚拟人物手部的动作,形成“我”字的手语视频。
可见,应用本实施例,可以将各个手语词汇对应的文字数据与手语指令对应保存,建立文字数据与手语指令的一一对应关系。后续可以基于各个目标手语指令、各个目标手语指令与视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频,以方便听障人士获取信息,提高听障人士的观看体验。
图3是根据一示例性实施例示出的另一种视频上传的方法,应用于视频生成客户端的流程图,可以包括:
步骤S301,获取待上传视频。
可实施的,视频生成客户端设备可以获取待上传视频,该待上传视频可以是直播过程中的待上传视频,也可以是预先录制好的短视频,也可以是其它视频,在这里不做具体限定。
步骤S302,判断当前是否为上传虚拟人物手语动作视频的上传状态。
所述上传状态,包括上传虚拟人物手语动作视频状态,和非上传虚拟人物手语动作视频状态,由用户预先设置。
可实施的,可以判断预先设置在视频生成客户端视频显示界面的菜单栏中的上传虚拟人物手语动作视频的按钮是否被按下,如果被按下,则为上传虚拟人物手语动作视频的上传状态。技术人员可以根据实际情况将上传虚拟人物手语动作视频的设置在其它合适位置,在此对上传虚拟人物手语动作视频的设置的位置不做具体限定。
如果判断的结果为否,即为非上传虚拟人物手语动作视频状态,则执行步骤S303;如果判断的结果为是,即为上传虚拟人物手语动作视频状态,则执行步骤S304。
步骤S303,将待上传视频上传至服务器。
可实施的,如果判断结果为非上传虚拟人物手语动作视频状态时,则可以只将待上传视频上传。结束操作。
步骤S304,将所述待上传视频中的音频数据实时转换为非压缩的波形文件,输入到预先训练好的神经网络模型。
可实施的,视频生成客户端可以是直播应用中的主播客户端,也可以是短视频应用中录制短视频的客户端;相应的,视频观看客户端可以是直播应用中的观众客户端,也可以是短视频应用中观看短视频的客户端。
直播或录制短视频时可以将所述待上传视频中的音频数据实时转换为非压缩的波形文件,输入到预先训练好的神经网络模型;其中,如果是短视频时,也可以将录制好的短视频作为待上传视频,将其对应的音频文件输入到预先训练好的神经网络模型。
可实施的,神经网络模型的训练过程可以和上述步骤S102中神经网络模型的训练过程相同,这里不再详细说明。
步骤S305,获取所述神经网络模型预测出的目标波形文件;所述神经网络模型,用于对非压缩的波形文件进行切割,得到语音数据中各个语句对应的目标波形文件作为目标语音数据。
步骤S306,将所述目标波形文件,按照预设的切分规则切分成各个目标帧文件。
可实施的,可以先将所述目标波形文件的首段和尾段的静音切除,获得切除静音后的目标波形文件;再对切除静音后的目标波形文件,按照预设的时间,进行分帧,获得各个目标帧文件。可实施的,每帧的长度可以为25毫秒。
步骤S307,对所述各个目标帧文件提取声学特征,获得所述各个目标帧文件的各个目标多维向量。
步骤S308,基于预设的多维向量与文字数据之间的对应关系,将所述各个目标多维向量转换为目标文字数据。
可实施的,可以用相关技术中的隐马尔可夫模型,构建状态网络,从状态网络中寻找与目标多维向量最匹配的路径,获得目标文字数据。
步骤S309,根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令。
可实施的,建立文字数据与手语指令的对应关系的过程可以如上述图2所示。
步骤S310,根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令与所述待上传视频中视频帧画面的对应关系。
可实施的,可以根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令对应的虚拟人物形象手部的动作轨迹与所述待上传视频中视频帧画面的对应关系。具体的,可以在将待上传视频对应的音频数据实时转换为非压缩的波形文件的过程中,记录每段语音数据在视频中对应的起始帧的时间戳信息,并根据记录确定待上传视频中语音数据对应的播放时间。
步骤S311,基于各个目标手语指令、各个目标手语指令与所述待上传视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
在一种具体的实施方式中,可以基于所述虚拟人物形象、所述目标手语指令对应的虚拟人物形象手部的动作轨迹、所述虚拟人物形象手部的动作轨迹与所述待上传视频中视频帧画面的对应关系,生成目标虚拟人物手语动作视频。
步骤S312,将所述待上传视频和目标虚拟人物手语动作视频上传至服务器,以使视频观看客户端从服务器获得所述待上传视频及目标虚拟人物手语动作视频,在播放所述待上传视频时,通过预设的播放窗口播放所述目标虚拟人物手语动作视频。
可实施的,该预设的播放窗口可以为预设的同步播放窗口。
可见,应用本公开实施例,实现了在播放待上传视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
而且,在本实施例中,视频生成客户端可以判断当前是否为上传虚拟人物手语动作视频的上传状态,如果为上传状态,则开始执行从所述待上传视频中获取语音数据作为目标语音数据的步骤,如果不是上传虚拟人物手语动作视频的上传状态,则将待上传视频上传。这样,视频生成客户端的用户可以选择是否生成并上传目标虚拟人物手语动作视频,提高了视频生成客户端的用户体验。
与图1a所示的视频上传实施例对应,图4是根据一示例性实施例示出的一种视频播放的方法,应用于视频观看客户端的流程图,如图4所示,可以包括:
步骤S401,从服务器获得待播放视频及目标虚拟人物手语动作视频。
所述目标虚拟主播手语动作视频,为:视频生成客户端,将待上传视频中的语音数据转为目标文字数据;根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;按照所述目标手语指令和预设的虚拟人物确定的。
步骤S402,在播放所述待播放视频时显示预设的播放窗口。
步骤S403,在所述播放窗口中播放所述目标虚拟人物手语动作视频。
可实施的,还可以在播放过程中,检测是否接收到关闭所述目标虚拟人物手语动作视频的指令;如果是,则关闭所述预设的播放窗口,停止播放所述目标虚拟人物手语动作视频;如果否,则在播放所述待上传视频时播放所述目标虚拟人物手语动作视频。
可见,应用本公开实施例,实现了在播放待上传视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
下面,对第二种实现方式进行详细说明。
图5是根据一示例性实施例示出的另一种视频播放的方法,应用于视频观看客户端的流程图,可以包括:
步骤S501,将待播放视频中的语音数据转为目标文字数据。
可实施的,在视频观看客户端将待播放视频中的语音数据转为目标文字数据的具体实现过程可以参照上述图1b。
步骤S502,根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令。
可实施的,可以预先按照上述图2所述的建立文字数据与手语指令的对应关系的过程,建立文字数据与手语指令的对应关系。
步骤S503,按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频。
在一种具体的实施方式中,可以根据待播放视频中语音数据对应的播放时间,确定各个目标手语指令与所述待播放视频中视频帧画面的对应关系;基于各个目标手语指令、各个目标手语指令与所述待播放视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
步骤S504,在播放所述待播放视频时,显示预设的播放窗口。
步骤S505,在所述播放窗口中播放所述目标虚拟人物手语动作视频。
可见,应用本公开实施例,实现了在播放待播放视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
图6是根据一示例性实施例示出的再一种视频播放的方法,应用于视频观看客户端的流程图,可以包括:
步骤S601,获得待播放视频。
步骤S602,判断当前是否为播放虚拟人物手语动作视频的播放状态。
所述播放状态,包括播放虚拟人物手语动作视频状态,和非播放虚拟人物手语动作视频状态。
如果判断的结果为否,即不是播放虚拟人物手语动作视频的播放状态,则执行步骤 S603;如果判断的结果为是,即为播放虚拟人物手语动作视频的播放状态,则执行步骤S604;
步骤S603,播放待播放视频。
步骤S604,将所述待播放视频中的音频数据实时转换为非压缩的波形文件,输入到预先训练好的神经网络模型。
可实施的,神经网络模型的训练过程具体可以参照上述图1b中步骤S1012中的神经网络模型的训练过程。
步骤S605,获取所述神经网络模型预测出的目标波形文件;所述神经网络模型,用于对非压缩的波形文件进行切割,得到语音数据中各个语句对应的目标波形文件作为目标语音数据。
步骤S606,将所述目标波形文件,按照预设的切分规则切分成各个目标帧文件。
实际应用中,步骤S606可以与图3中的步骤S306相同,这里不再详细说明。
步骤S607,对所述各个目标帧文件提取声学特征,获得所述各个目标帧文件的各个目标多维向量。
步骤S608,基于预设的多维向量与文字数据之间的对应关系,将所述各个目标多维向量转换为目标文字数据。
步骤S609,根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令。
可实施的,建立文字数据与手语指令的对应关系的过程可以如上述图2所示。
步骤S610,根据待播放视频中语音数据对应的播放时间,确定各个目标手语指令与所述待播放视频中视频帧画面的对应关系。
实际应用中,步骤S610可以与图3中的步骤S310实现方式相同,这里不再详细说明。
步骤S611,基于各个目标手语指令、各个目标手语指令与所述待播放视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
实际应用中,步骤S611可以与图3中的步骤S311实现方式相同,这里不再详细说明。
步骤S612,在播放所述待播放视频时,显示预设的播放窗口。
可实施的,该播放窗口可以为同步播放窗口。
步骤S613,在所述播放窗口中播放所述目标虚拟人物手语动作视频。
可实施的,可以在同步播放窗口中播放目标虚拟人物手语动作视频。
可见,应用本公开实施例,实现了在播放待播放视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
而且,在本实施例中,视频观看客户端可以判断当前是否为播放虚拟人物手语动作视频的播放状态,如果是,则开始执行从所述待播放视频中获取语音数据作为目标语音数据的步骤;如果没检测到该指令,则播放待播放视频。这样,视频观看客户端的用户可以选择是否在播放所述待播放视频时播放所述目标虚拟人物手语动作视频,听力正常的用户就可以选择不播放目标虚拟人物手语动作视频,听障人士可以选择播放目标虚拟人物手语动作视频,提高了视频观看客户端的不同用户的用户体验。
图7是根据一示例性实施例示出的一种视频上传的装置,应用于视频生成客户端的装置的框图。参照图7,该装置包括:
第一目标文字数据转换单元701,被配置为将待上传视频中的语音数据转为目标文字数据;
第一目标手语指令确定单元702,被配置为根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
第一手语动作视频确定单元703,被配置为按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
上传单元704,被配置为将所述待上传视频和目标虚拟人物手语动作视频上传至服务器,以使视频观看客户端从服务器获得所述待上传视频及目标虚拟人物手语动作视频,在播放所述待上传视频时,通过预设的播放窗口播放所述目标虚拟人物手语动作视频。
可选的,所述第一手语动作视频确定单元,包括:
第一对应关系确定模块,被配置为根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令与所述待上传视频中视频帧画面的对应关系;
第一手语动作视频生成模块,被配置为基于各个目标手语指令、各个目标手语指令与所述待上传视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
可选的,所述第一目标文字数据转换单元,包括:
视频获取模块,被配置为获取待上传视频;
第一目标语音数据获取模块,被配置为从所述待上传视频中获取语音数据作为目标语音数据;
第一目标文字数据转换模块,被配置为将所述目标语音数据转为目标文字数据。
可选的,所述装置,还包括:
第一判断模块,被配置为在所述第一目标语音数据获取模块目标语音数据获取模块从所述待上传视频中获取语音数据作为目标语音数据之前,判断当前是否为上传虚拟人物手语动作视频的上传状态;所述上传状态,包括上传虚拟人物手语动作视频状态,和非上传虚拟人物手语动作视频状态,由用户预先设置;如果是,则执行所述从所述待上传视频中获取语音数据作为目标语音数据的步骤。
可选的,所述第一目标语音数据获取模块,具体被配置为:
将所述待上传视频中的音频数据实时转换为非压缩的波形文件,输入到预先训练好的神经网络模型;
获取所述神经网络模型预测出的目标波形文件;所述神经网络模型,用于对非压缩的波形文件进行切割,得到语音数据中各个语句对应的目标波形文件作为目标语音数据。
可选的,所述第一目标文字数据转换模块,具体被配置为:
将所述目标波形文件,按照预设的切分规则切分成各个目标帧文件;
对所述各个目标帧文件提取声学特征,获得所述各个目标帧文件的各个目标多维向量;
基于预设的多维向量与文字数据之间的对应关系,将所述各个目标多维向量转换为目标文字数据。
可选的,所述装置,还包括:第一对应关系建立单元;
所述第一对应关系建立单元,具体被配置为:
获得基于手语规则设置的每个手语词汇对应的手语指令;
获得设置的虚拟人物形象以及每个手语指令对应的虚拟人物形象手部的动作轨迹;
将各个手语词汇对应的文字数据与手语指令对应保存。
可选的,所述第一对应关系确定模块,具体被配置为:
根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令对应的虚拟人物形象手部的动作轨迹与所述待上传视频中视频帧画面的对应关系。
可选的,所述第一手语动作视频生成模块,具体被配置为:
基于所述虚拟人物形象、所述目标手语指令对应的虚拟人物形象手部的动作轨迹、所述虚拟人物形象手部的动作轨迹与所述待上传视频中视频帧画面的对应关系,生成目标虚拟人物手语动作视频。
可见,应用本公开实施例,实现了在播放待上传视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
图8是根据一示例性实施例示出的一种视频播放的装置,应用于视频观看客户端的装置的框图。参照图8,该装置包括:
第一手语动作视频获得单元801,被配置为从服务器获得待播放视频及目标虚拟人物手语动作视频;所述目标虚拟人物手语动作视频,为:视频生成客户端,将待上传视频中的语音数据转为目标文字数据;根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;按照所述目标手语指令和预设的虚拟人物确定的;
第一播放窗口显示单元802,被配置为在播放所述待播放视频时显示预设的播放窗口;
第一手语动作视频播放单元803,被配置为在所述播放窗口中播放所述目标虚拟人物手语动作视频。
可选的,所述装置还包括:
第一手语动作视频关闭指令检测单元,被配置为检测是否接收到关闭所述目标虚拟人物手语动作视频的指令;如果是,则关闭所述预设的播放窗口,停止播放所述目标虚拟人物手语动作视频。
可见,应用本公开实施例,实现了在播放待上传视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
图9是根据一示例性实施例示出的再一种视频播放的装置,应用于视频观看客户端的装置的框图。参照图9,该装置包括:
第二目标文字数据转换单元901,被配置为将待播放视频中的语音数据转为目标文字数据;
第二目标手语指令确定单元902,被配置为根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
第二手语动作视频确定单元903,被配置为按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
第二播放窗口显示单元904,被配置为在播放所述待播放视频时,显示预设的播放窗口;
第二手语动作视频播放单元905,被配置为在所述播放窗口中播放所述目标虚拟人物手语动作视频。
可选的,所述第二手语动作视频确定单元,包括:
第二对应关系确定模块,被配置为根据待播放视频中语音数据对应的播放时间,确定各个目标手语指令与所述待播放视频中视频帧画面的对应关系;
第二手语动作视频生成模块,被配置为基于各个目标手语指令、各个目标手语指令与所述待播放视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
可选的,所述第二目标文字数据转换单元,包括:
视频获得模块,被配置为获得待播放视频;
第二目标语音数据获取模块,被配置为从所述待播放视频中获取语音数据作为目标语音数据;
第二目标文字数据转换模块,被配置为将所述目标语音数据转为目标文字数据。
可选的,所述装置,还包括:
第二判断模块,被配置为在所述第二目标语音数据获取模块从所述待播放视频中获取语音数据作为目标语音数据之前,判断当前是否为播放虚拟人物手语动作视频的播放状态;所述播放状态,包括播放虚拟人物手语动作视频状态,和非播放虚拟人物手语动作视频状态;如果是,则执行所述从所述待播放视频中获取语音数据作为目标语音数据的步骤。
可选的,所述第二目标语音数据获取模块,具体被配置为:
将所述待播放视频中的音频数据实时转换为非压缩的波形文件,输入到预先训练好的神经网络模型;
获取所述神经网络模型预测出的目标波形文件;所述神经网络模型,用于对非压缩的波形文件进行切割,得到语音数据中各个语句对应的目标波形文件作为目标语音数据。
可选的,所述第二目标文字数据转换模块,具体被配置为:
将所述目标波形文件,按照预设的切分规则切分成各个目标帧文件;
对所述各个目标帧文件提取声学特征,获得所述各个目标帧文件的各个目标多维向量;
基于预设的多维向量与文字数据之间的对应关系,将所述各个目标多维向量转换为目标文字数据。
可选的,所述装置,还包括:第二对应关系建立单元;
所述第二对应关系建立单元,具体被配置为:
获得基于手语规则设置的每个手语词汇对应的手语指令;
获得设置的虚拟人物形象以及每个手语指令对应的虚拟人物形象手部的动作轨迹;
将各个手语词汇对应的文字数据与手语指令对应保存。
可选的,所述第二对应关系确定模块,具体被配置为:
根据待播放视频中语音数据对应的播放时间,确定各个目标手语指令对应的虚拟人物形象手部的动作轨迹与所述待播放视频中视频帧画面的对应关系。
可选的,所述第二手语动作视频生成模块,具体被配置为:
基于所述虚拟人物形象、所述目标手语指令对应的虚拟人物形象手部的动作轨迹、所述虚拟人物形象手部的动作轨迹与所述待播放视频中视频帧画面的对应关系,生成目标虚拟人物手语动作视频。
可见,应用本公开实施例,实现了在播放待上传视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种客户端设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003 通过通信总线1004完成相互间的通信,
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现如下视频生成客户端的步骤:
将待上传视频中的语音数据转为目标文字数据;
根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
将所述待上传视频和目标虚拟人物手语动作视频上传至服务器,以使视频观看客户端从服务器获得所述待上传视频及目标虚拟人物手语动作视频,在播放所述待上传视频时,通过预设的播放窗口播放所述目标虚拟人物手语动作视频。
或,实现如下视频观看客户端的步骤:
从服务器获得待播放视频及目标虚拟人物手语动作视频;所述目标虚拟人物手语动作视频,为:视频生成客户端,将待上传视频中的语音数据转为目标文字数据;根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;按照所述目标手语指令和预设的虚拟人物确定的;
在播放所述待播放视频时显示预设的播放窗口;
在所述播放窗口中播放所述目标虚拟人物手语动作视频。
或,实现如下视频观看客户端的步骤:
将待播放视频中的语音数据转为目标文字数据;
根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
在播放所述待播放视频时,显示预设的播放窗口;
在所述播放窗口中播放所述目标虚拟人物手语动作视频。
可见,应用本公开实施例,实现了在播放视频时,通过预设的播放窗口播放目标虚拟人物手语动作视频。因此,应用本公开实施例,听障人士可以在观看直播或短视频等形式的视频时,观看到目标虚拟人物手语动作视频,能够有效的获取信息,提高了听障人士的观看体验。
图11是根据一示例性实施例示出的一种用于视频上传或视频播放的装置1100的框图。例如,装置1100可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图11,装置1100可以包括以下一个或多个组件:处理组件1102,存储器1104,电源组件1106,多媒体组件1108,音频组件1110,输入/输出(I/O)接口1112,传感器组件1114,以及通信组件1116。
处理组件1102通常控制装置1100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1102可以包括一个或多个模块,便于处理组件1102和其他组件之间的交互。例如,处理组件1102可以包括多媒体模块,以方便多媒体组件1108和处理组件1102之间的交互。
存储器1104被配置为存储各种类型的数据以支持在装置1100的操作。这些数据的示例包括用于在装置1100上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1106为装置1100的各种组件提供电力。电源组件1106可以包括电源管理系统,一个或多个电源,及其他与为装置1100生成、管理和分配电力相关联的组件。
多媒体组件1108包括在所述装置1100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1108包括一个前置摄像头和/或后置摄像头。当设备1100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1110被配置为输出和/或输入音频信号。例如,音频组件1110包括一个麦克风(MIC),当装置1100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104 或经由通信组件1116发送。在一些实施例中,音频组件1110还包括一个扬声器,用于输出音频信号。
I/O接口1112为处理组件1102和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1114包括一个或多个传感器,用于为装置1100提供各个方面的状态评估。例如,传感器组件1114可以检测到设备1100的打开/关闭状态,组件的相对定位,例如所述组件为装置1100的显示器和小键盘,传感器组件1114还可以检测装置1100或装置 1100一个组件的位置改变,用户与装置1100接触的存在或不存在,装置1100方位或加速/减速和装置1100的温度变化。传感器组件1114可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器,如 CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1114 还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1116被配置为便于装置1100和其他设备之间有线或无线方式的通信。装置 1100可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1116还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID) 技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器1104,上述指令可由装置1100的处理器1120执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是 ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图12是根据一示例性实施例示出的一种用于视频上传或视频播放的装置1200的框图。例如,装置1200可以被提供为一服务器。参照图12,装置1200包括处理组件1222,其进一步包括一个或多个处理器,以及由存储器1232所代表的存储器资源,用于存储可由处理组件1222的执行的指令,例如应用程序。存储器1232中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1222被配置为执行指令,以执行上述视频上传或视频播放的方法。
装置1200还可以包括一个电源组件1226被配置为执行装置1200的电源管理,一个有线或无线网络接口1250被配置为将装置1200连接到网络,和一个输入输出(I/O)接口1258。装置1200可以操作基于存储在存储器1232的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似……。
在示例性实施例中,还提供了一种存储介质,所述存储介质内存储有计算机程序,当所述计算机程序被处理器执行时,实现上述任一所述的视频上传的方法;或实现上述任一所述的视频播放的方法。
可选地,该存储介质可以是非临时性计算机可读存储介质,示例性的,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的视频上传的方法;或执行上述任一所述的视频播放的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种视频上传的方法,其特征在于,应用于视频生成客户端设备,包括:
将待上传视频中的语音数据转为目标文字数据;
根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
将所述待上传视频和目标虚拟人物手语动作视频上传至服务器,以使视频观看客户端从服务器获得所述待上传视频及目标虚拟人物手语动作视频,在播放所述待上传视频时,通过预设的播放窗口播放所述目标虚拟人物手语动作视频。
2.根据权利要求1所述的方法,其特征在于,所述按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频的步骤,包括:
根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令与所述待上传视频中视频帧画面的对应关系;
基于各个目标手语指令、各个目标手语指令与所述待上传视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
3.一种视频播放的方法,其特征在于,应用于视频观看客户端设备,包括:
从服务器获得待播放视频及目标虚拟人物手语动作视频;所述目标虚拟人物手语动作视频,为:视频生成客户端,将待上传视频中的语音数据转为目标文字数据;根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;按照所述目标手语指令和预设的虚拟人物确定的;
在播放所述待播放视频时显示预设的播放窗口;
在所述播放窗口中播放所述目标虚拟人物手语动作视频。
4.一种视频播放的方法,其特征在于,应用于视频观看客户端设备,包括:
将待播放视频中的语音数据转为目标文字数据;
根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
在播放所述待播放视频时,显示预设的播放窗口;
在所述播放窗口中播放所述目标虚拟人物手语动作视频。
5.一种视频上传的装置,其特征在于,应用于视频生成客户端设备,包括:
第一目标文字数据转换单元,被配置为将待上传视频中的语音数据转为目标文字数据;
第一目标手语指令确定单元,被配置为根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
第一手语动作视频确定单元,被配置为按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
上传单元,被配置为将所述待上传视频和目标虚拟人物手语动作视频上传至服务器,以使视频观看客户端从服务器获得所述待上传视频及目标虚拟人物手语动作视频,在播放所述待上传视频时,通过预设的播放窗口播放所述目标虚拟人物手语动作视频。
6.根据权利要求5所述的装置,其特征在于,所述第一手语动作视频确定单元,包括:
第一对应关系确定模块,被配置为根据待上传视频中语音数据对应的播放时间,确定各个目标手语指令与所述待上传视频中视频帧画面的对应关系;
第一手语动作视频生成模块,被配置为基于各个目标手语指令、各个目标手语指令与所述待上传视频中视频帧画面的对应关系及预设的虚拟人物,生成目标虚拟人物手语动作视频。
7.一种视频播放的装置,其特征在于,应用于视频观看客户端设备,包括:
第一手语动作视频获得单元,被配置为从服务器获得待播放视频及目标虚拟人物手语动作视频;所述目标虚拟人物手语动作视频,为:视频生成客户端,将待上传视频中的语音数据转为目标文字数据;根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;按照所述目标手语指令和预设的虚拟人物确定的;
第一播放窗口显示单元,被配置为在播放所述待播放视频时显示预设的播放窗口;
第一手语动作视频播放单元,被配置为在所述播放窗口中播放所述目标虚拟人物手语动作视频。
8.一种视频播放的装置,其特征在于,应用于视频观看客户端设备,包括:
第二目标文字数据转换单元,被配置为将待播放视频中的语音数据转为目标文字数据;
第二目标手语指令确定单元,被配置为根据预先建立的文字数据与手语指令的对应关系,确定所述目标文字数据对应的至少一条目标手语指令;
第二手语动作视频确定单元,被配置为按照所述目标手语指令,确定预设的目标虚拟人物手语动作视频;
第二播放窗口显示单元,被配置为在播放所述待播放视频时,显示预设的播放窗口;
第二手语动作视频播放单元,被配置为在所述播放窗口中播放所述目标虚拟人物手语动作视频。
9.一种客户端设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-2任一所述的方法步骤;或实现权利要求3所述的方法步骤;或实现权利要求4所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-2任一所述的方法步骤;或实现权利要求3所述的方法步骤;或实现权利要求4所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911023915.3A CN110730360A (zh) | 2019-10-25 | 2019-10-25 | 视频上传、播放的方法、装置、客户端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911023915.3A CN110730360A (zh) | 2019-10-25 | 2019-10-25 | 视频上传、播放的方法、装置、客户端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110730360A true CN110730360A (zh) | 2020-01-24 |
Family
ID=69223146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911023915.3A Pending CN110730360A (zh) | 2019-10-25 | 2019-10-25 | 视频上传、播放的方法、装置、客户端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110730360A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111369652A (zh) * | 2020-02-28 | 2020-07-03 | 长沙千博信息技术有限公司 | 一种基于多个单独手语动作产生连续手语动作的方法 |
CN113035199A (zh) * | 2021-02-01 | 2021-06-25 | 深圳创维-Rgb电子有限公司 | 音频处理方法、装置、设备及可读存储介质 |
CN114157920A (zh) * | 2021-12-10 | 2022-03-08 | 深圳Tcl新技术有限公司 | 一种展示手语的播放方法、装置、智能电视及存储介质 |
CN114827720A (zh) * | 2022-03-15 | 2022-07-29 | 北京随闻科技有限公司 | 一种音频内容的转换方法、计算机设备以及存储介质 |
CN115484493A (zh) * | 2022-09-09 | 2022-12-16 | 深圳市小溪流科技有限公司 | 一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统 |
CN115695849A (zh) * | 2022-10-31 | 2023-02-03 | 北京百度网讯科技有限公司 | 直播视频的获取方法、装置、设备及介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101005574A (zh) * | 2006-01-17 | 2007-07-25 | 上海中科计算技术研究所 | 视频虚拟人手语编辑系统 |
CN200969635Y (zh) * | 2006-08-30 | 2007-10-31 | 康佳集团股份有限公司 | 一种具有手语解说功能的电视机 |
CN101794528A (zh) * | 2010-04-02 | 2010-08-04 | 北京大学软件与微电子学院无锡产学研合作教育基地 | 一种手语语音双向翻译系统 |
CN102903361A (zh) * | 2012-10-15 | 2013-01-30 | Itp创新科技有限公司 | 一种通话即时翻译系统和方法 |
KR20140130335A (ko) * | 2013-04-30 | 2014-11-10 | 삼성전자주식회사 | 수화 번역 및 화면 해설 서비스 방법 및 시스템 |
CN105609106A (zh) * | 2015-12-16 | 2016-05-25 | 魅族科技(中国)有限公司 | 记事文档生成方法和装置 |
US20160293051A1 (en) * | 2015-03-30 | 2016-10-06 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for providing optimal braille output based on spoken and sign language |
CN106653051A (zh) * | 2016-12-09 | 2017-05-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频聋哑模式的方法及装置 |
CN107657947A (zh) * | 2017-09-20 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN107798964A (zh) * | 2017-11-24 | 2018-03-13 | 郑军 | 一种实时识别手势的手语智能交互设备及其交互方法 |
CN108074569A (zh) * | 2017-12-06 | 2018-05-25 | 安徽省科普产品工程研究中心有限责任公司 | 一种智能化语音实时识别及展示方法 |
CN108091335A (zh) * | 2017-12-06 | 2018-05-29 | 安徽省科普产品工程研究中心有限责任公司 | 一种基于语音识别的实时语音翻译系统 |
CN108427910A (zh) * | 2018-01-30 | 2018-08-21 | 浙江凡聚科技有限公司 | 深层神经网络ar手语翻译学习方法、客户端及服务器 |
CN109446876A (zh) * | 2018-08-31 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
CN109829039A (zh) * | 2018-12-13 | 2019-05-31 | 平安科技(深圳)有限公司 | 智能聊天方法、装置、计算机设备及存储介质 |
CN110322760A (zh) * | 2019-07-08 | 2019-10-11 | 北京达佳互联信息技术有限公司 | 语音数据生成方法、装置、终端及存储介质 |
-
2019
- 2019-10-25 CN CN201911023915.3A patent/CN110730360A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101005574A (zh) * | 2006-01-17 | 2007-07-25 | 上海中科计算技术研究所 | 视频虚拟人手语编辑系统 |
CN200969635Y (zh) * | 2006-08-30 | 2007-10-31 | 康佳集团股份有限公司 | 一种具有手语解说功能的电视机 |
CN101794528A (zh) * | 2010-04-02 | 2010-08-04 | 北京大学软件与微电子学院无锡产学研合作教育基地 | 一种手语语音双向翻译系统 |
CN102903361A (zh) * | 2012-10-15 | 2013-01-30 | Itp创新科技有限公司 | 一种通话即时翻译系统和方法 |
KR20140130335A (ko) * | 2013-04-30 | 2014-11-10 | 삼성전자주식회사 | 수화 번역 및 화면 해설 서비스 방법 및 시스템 |
US20160293051A1 (en) * | 2015-03-30 | 2016-10-06 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for providing optimal braille output based on spoken and sign language |
CN105609106A (zh) * | 2015-12-16 | 2016-05-25 | 魅族科技(中国)有限公司 | 记事文档生成方法和装置 |
CN106653051A (zh) * | 2016-12-09 | 2017-05-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频聋哑模式的方法及装置 |
CN107657947A (zh) * | 2017-09-20 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN107798964A (zh) * | 2017-11-24 | 2018-03-13 | 郑军 | 一种实时识别手势的手语智能交互设备及其交互方法 |
CN108074569A (zh) * | 2017-12-06 | 2018-05-25 | 安徽省科普产品工程研究中心有限责任公司 | 一种智能化语音实时识别及展示方法 |
CN108091335A (zh) * | 2017-12-06 | 2018-05-29 | 安徽省科普产品工程研究中心有限责任公司 | 一种基于语音识别的实时语音翻译系统 |
CN108427910A (zh) * | 2018-01-30 | 2018-08-21 | 浙江凡聚科技有限公司 | 深层神经网络ar手语翻译学习方法、客户端及服务器 |
CN109446876A (zh) * | 2018-08-31 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
CN109829039A (zh) * | 2018-12-13 | 2019-05-31 | 平安科技(深圳)有限公司 | 智能聊天方法、装置、计算机设备及存储介质 |
CN110322760A (zh) * | 2019-07-08 | 2019-10-11 | 北京达佳互联信息技术有限公司 | 语音数据生成方法、装置、终端及存储介质 |
Non-Patent Citations (2)
Title |
---|
王兆其等: "基于虚拟人合成技术的中国手语合成方法", 《软件学报》 * |
王兆其等: "基于虚拟人合成技术的中国手语合成方法", 《软件学报》, 31 October 2002 (2002-10-31) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111369652A (zh) * | 2020-02-28 | 2020-07-03 | 长沙千博信息技术有限公司 | 一种基于多个单独手语动作产生连续手语动作的方法 |
CN111369652B (zh) * | 2020-02-28 | 2024-04-05 | 长沙千博信息技术有限公司 | 一种基于多个单独手语动作产生连续手语动作的方法 |
CN113035199A (zh) * | 2021-02-01 | 2021-06-25 | 深圳创维-Rgb电子有限公司 | 音频处理方法、装置、设备及可读存储介质 |
CN113035199B (zh) * | 2021-02-01 | 2024-05-07 | 深圳创维-Rgb电子有限公司 | 音频处理方法、装置、设备及可读存储介质 |
CN114157920A (zh) * | 2021-12-10 | 2022-03-08 | 深圳Tcl新技术有限公司 | 一种展示手语的播放方法、装置、智能电视及存储介质 |
CN114157920B (zh) * | 2021-12-10 | 2023-07-25 | 深圳Tcl新技术有限公司 | 一种展示手语的播放方法、装置、智能电视及存储介质 |
CN114827720A (zh) * | 2022-03-15 | 2022-07-29 | 北京随闻科技有限公司 | 一种音频内容的转换方法、计算机设备以及存储介质 |
CN115484493A (zh) * | 2022-09-09 | 2022-12-16 | 深圳市小溪流科技有限公司 | 一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统 |
CN115695849A (zh) * | 2022-10-31 | 2023-02-03 | 北京百度网讯科技有限公司 | 直播视频的获取方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446876B (zh) | 手语信息处理方法、装置、电子设备和可读存储介质 | |
CN110730360A (zh) | 视频上传、播放的方法、装置、客户端设备及存储介质 | |
EP3817395A1 (en) | Video recording method and apparatus, device, and readable storage medium | |
US20170272784A1 (en) | Live video broadcasting method and device | |
US20170304735A1 (en) | Method and Apparatus for Performing Live Broadcast on Game | |
CN107644646B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
CN110662083A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110610699B (zh) | 语音信号处理方法、装置、终端、服务器及存储介质 | |
CN106792071A (zh) | 字幕处理方法及装置 | |
CN104391711B (zh) | 一种设置屏幕保护的方法及装置 | |
CN105389296A (zh) | 信息分割方法及装置 | |
EP3933570A1 (en) | Method and apparatus for controlling a voice assistant, and computer-readable storage medium | |
CN109413478B (zh) | 视频编辑方法、装置、电子设备及存储介质 | |
CN111954063B (zh) | 视频直播间的内容显示控制方法及装置 | |
CN108648754B (zh) | 语音控制方法及装置 | |
CN104394265A (zh) | 基于移动智能终端的自动会话方法及装置 | |
CN111836062A (zh) | 视频播放方法、装置及计算机可读存储介质 | |
CN105100432A (zh) | 通话界面显示方法及装置 | |
CN108073572A (zh) | 信息处理方法及其装置、同声翻译系统 | |
CN108986803B (zh) | 场景控制方法及装置、电子设备、可读存储介质 | |
CN115273831A (zh) | 语音转换模型训练方法、语音转换方法和装置 | |
CN108156506A (zh) | 弹幕信息的进度调整方法及装置 | |
CN105451056A (zh) | 音视频同步方法及装置 | |
CN112948704A (zh) | 用于信息推荐的模型训练方法、装置、电子设备以及介质 | |
CN107679485A (zh) | 基于虚拟现实的辅助阅读方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |