CN110324702A - 视频播放过程中的信息推送方法和装置 - Google Patents
视频播放过程中的信息推送方法和装置 Download PDFInfo
- Publication number
- CN110324702A CN110324702A CN201910597924.7A CN201910597924A CN110324702A CN 110324702 A CN110324702 A CN 110324702A CN 201910597924 A CN201910597924 A CN 201910597924A CN 110324702 A CN110324702 A CN 110324702A
- Authority
- CN
- China
- Prior art keywords
- information
- video
- background sound
- sound
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000008569 process Effects 0.000 title claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000000926 separation method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 208000032041 Hearing impaired Diseases 0.000 abstract description 8
- 230000000007 visual effect Effects 0.000 abstract description 3
- 241000282376 Panthera tigris Species 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000009331 sowing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
- H04N21/8133—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种视频播放过程中的信息推送方法和装置,包括:从正在播放的视频文件中提取正在播放的音频数据;从音频数据中分离出背景声音;对背景声音进行识别,获得背景声音的类别;将与背景声音的类别相匹配的文字信息和/或图像信息推送至正在播放的视频区域中显示。本发明实现了对视频背景声音的文字形式和图像形式的可视信息的展示,从而使得人们能够在无需听到视频中的声音情况下获得视频中的声音所表达的信息,同时本发明降低了听障人士对视频中声音信息的获取难度。
Description
技术领域
本发明涉及计算机多媒体技术领域,特别涉及一种视频播放过程中的信息推送方法和装置。
背景技术
随着互联网技术和移动通信技术的发展以及通信资费的不断下降,基于互联网和移动通信的视频播放方式已经成为了人们日常生活中所常用的视频观看形式。人们可在任何具有互联网的场所使用相应的终端设备观看视频。但是,受到人们观看视频场所环境变化的影响,导致了视频观看体验的不同,例如在诸如地铁、公交车、火车、飞机等噪音较大的场所中,视频中的声音信息受到环境影响而无法听清,如果将音量开得较大将影响人的听力,长此以往将造成听力下降,又如在诸如图书馆、以及各种安静场所中,需要将视频声音调降到极低甚至静音状态,这种情况下,虽然某些视频中同时提供有字幕信息,但是用户也无法获得除字幕信息以外的视频中的其他声音信息。另外,对于听障人士而言,无论在何种情况下,都难以获得所观看视频中多数声音信息,可见现有的视频播放方式对于听障人士而言造成了一种技术性的歧视。
因此,如何使得人们能够在无需听到视频中的声音情况下获得视频中的声音所表达的信息,便成为了需要解决的技术问题。
发明内容
有鉴于此,本发明提供一种视频播放过程中的信息推送方法和装置,以将视频中除人声以外的背景声音信息所表达的内容同步推送至视频前端显示,使得人们能够在无需听到视频中的声音情况下获得视频中的声音所表达的信息,并降低听障人士对视频中声音信息的获取难度。
本发明的技术方案是这样实现的:
一种视频播放过程中的信息推送方法,包括:
从当前正在播放的视频文件中提取当前正在播放的音频数据;
从所述音频数据中分离出背景声音;
对所述背景声音进行识别,获得所述背景声音的类别;
将与所述背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示。
优选地,所述的从当前正在播放的视频文件中提取当前正在播放的音频数据,包括:
将当前正在播放的视频文件中的正在播放的音频数据从所述视频文件中提取出来。
优选地,所述的从所述音频数据中分离出背景声音,包括:
利用神经网络将所述音频数据中的人声和背景声音进行分离;
其中,所述背景声音为所述音频数据中不包含人声的声音。
优选地,利用神经网络将所述音频数据中的人声和背景声音进行分离,包括:
对所述音频数据进行短时傅里叶变换得到混合音频的振幅谱和相位谱;
所述混合音频的振幅谱经过所述神经网络分离出人声振幅谱和背景声音振幅谱;
将所述背景声音振幅谱与所述混合音频的相位谱进行短时逆傅里叶变换,得到所述背景声音的波形谱,从而完成所述背景声音的分离。
优选地,所述的对所述背景声音进行识别,获得所述背景声音的类别,包括:
利用声音判别模型对所述背景声音进行识别,获得所述背景声音的类别。
优选地,所述声音判别模型通过如下方法获得:
采用特征提取器从环境音频数据集中提取特征向量;
将所述特征向量进行神经网络训练,生成所述声音判别模型。
优选地,所述的将与所述背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示,包括:
在已存储有所述文字信息和/或图像信息的数据库中检索与所述背景声音的类别相匹配的文字信息和/或图像信息,并将检索到的文字信息和/或图像信息实时推送至当前正在播放的视频区域中显示。
优选地,所述背景声音的类别包括声音的名称和属性,所述的在已存储有所述文字信息和/或图像信息的数据库中检索与所述背景声音的类别相匹配的文字信息和/或图像信息,包括:
在所述数据库中检索与所述背景声音的名称和属性均相匹配的文字信息和/或图像信息。
优选地,在已存储有所述文字信息和/或图像信息的数据库中检索与所述背景声音的类别相匹配的文字信息和/或图像信息之后,并在将检索到的文字信息和/或图像信息实时推送至当前正在播放的视频区域中显示之前,所述方法还包括:
在所述数据库中查询是否有与当前正在播放的视频的风格相一致的文字信息和/或图像信息的显示风格;
如果有,则将所述检索到的文字信息和/或图像信息采用与当前正在播放的视频的风格相一致的文字信息和/或图像信息的显示风格;
如果没有,则获取当前正在播放的视频的快照,并基于深度学习方法,将所述文字信息和/或图像信息的显示风格转换为与所述当前正在播放的视频的快照的风格相一致,并将转换后的所述文字信息和/或图像信息的显示风格保存于所述数据库中。
优选地,所述的将与所述背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示,包括:
在所述当前正在播放的视频上方建立透明的信息显示层;
将所述文字信息和/或图像信息推送至所述信息显示层中显示。
优选地,所述的将与所述背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示,包括:
对所述当前正在播放的视频进行兴趣点分析,获得兴趣点POI区域;
将所述文字信息和/或图像信息推送至当前正在播放的视频中的非POI区域。
优选地,所述方法还包括:
接收用户输入的声音类别范围和/或字体库和/或图像库,并在所接收的声音类别范围和/或字体库和/或图像库内进行所述文字信息和/或图像信息的匹配。
优选地,所述方法还包括:
接收用户输入的信息显示方式;
根据所述信息显示方式,在所述当前正在播放的视频区域中显示所述文字信息和/或图像信息。
一种视频播放过程中的信息推送装置,包括:
音频提取模块,用于从当前正在播放的视频文件中提取当前正在播放的音频数据;
背景声音分离模块,用于从所述音频数据中分离出背景声音;
背景声音分类模块,用于对所述背景声音进行识别,获得所述背景声音的类别;
显示信息匹配模块,用于将所述背景声音的类别与文字信息和/或图像信息进行匹配,获得与所述背景声音的类别相匹配的文字信息和/或图像信息;以及,
显示信息推送模块,用于将与所述背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示。
从上述方案可以看出,本发明的视频播放过程中的信息推送方法和装置,在播放视频的过程中获取正在播放的音频数据,并分离出背景声音,对背景声音进行识别,获得背景声音的类别,进而将与背景声音的类别相匹配的文字信息和/或图像信息推送至正在播放的视频区域中显示。从而实现了对视频背景声音的文字形式和图像形式的可视信息的展示,从而使得人们能够在无需听到视频中的声音情况下获得视频中的声音所表达的信息,同时本发明也降低了听障人士对视频中声音信息的获取难度。
附图说明
图1为本发明实施例的视频播放过程中的信息推送方法流程图;
图2为本发明实施例中利用DRNN对音频数据进行分离的流程图;
图3为本发明实施例的视频播放过程中的信息推送装置示意图;
图4为本发明实施例的电子设备示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明作进一步详细说明。
随着互联网技术及移动通信技术的发展,弹幕形式的交互方式在视频播放领域中应运而生,并在人们的认同和需求下,越来越广泛地被推广和使用,诸如A站(AcFun)、B站(bilibili,哔哩哔哩)为代表的视频弹幕网站已从众多视频网站中脱颖而出。
视频弹幕网站,是视频分享网站的一种分支,和普通的视频分享网站不同的是,观看者能在观看视频的过程中发表自己的评论,并将即时在所有观看者观看此视频的该时间点时以滑动而过的字幕显示出来,从而增加了观看者之间的互动性。
正是由于弹幕所带来的观看者之间的互动性,使得视频资源的观众粘合度大大增加,从而更多的视频网站也开始采用弹幕技术,进而弹幕已经成为基于互联网的一种大众认可的信息推送形式。
本发明实施例通过对视频中的除人声以外的背景声音的采集和识别,匹配出与背景声音相对应的文字信息和/或图像信息推送至视频前端同步显示,来辅助视频观看者在无法准确获取视频声音的情况下获得视频中的声音所表达的信息,并降低听障人士对视频中声音信息的获取难度。其中,文字信息可以为例如上述说明中的弹幕形式的弹幕信息,图像信息可以为例如图标形式的图标信息。
如图1所示,本发明实施例的视频播放过程中的信息推送方法,主要包括以下步骤:
步骤1、从当前正在播放的视频文件中提取当前正在播放的音频数据;
步骤2、从音频数据中分离出背景声音;
步骤3、对背景声音进行识别,获得背景声音的类别;
步骤4、将与背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示。
在可选实施例中,步骤1中的从当前正在播放的视频文件中提取当前正在播放的音频数据,包括:
将当前正在播放的视频文件中的正在播放的音频数据提取出来。在优选实施例中,步骤1中,利用MediaExtractor API(媒体抽出器应用程序编程接口)将当前正在播放的视频文件中的正在播放的音频数据提取出来。在该可选实施例中,通过MediaExtractor提供的方法将音频和视频数据相分离,利用其中的setDataSource来设置所提取视频文件的类型,可设置为本地文件或者网络视频流,进而无论是对于本地存储的视频文件还是在互联网中实时观看视频,均可实现对音频数据的提取,之后再获取正在播放的视频的通道数和通道的格式,读取通道中的数据,读取完成后释放资源。关于利用MediaExtractor API从视频中提取音频数据的具体步骤细节,属于本领域的已有技术,不再赘述。
在可选实施例中,步骤2中的从音频数据中分离出背景声音,包括:
利用神经网络将音频数据中的人声和背景声音进行分离;其中,背景声音为音频数据中不包含人声的声音。
在本发明实施例中,将视频文件中的音频信息分为人声和背景声音,规定人声(即视频中的人物对白)为视频文件中的主声音,规定除人声以外的其他声音均为背景声音。
在可选实施例中,步骤2具体可包括:
对音频数据进行短时傅里叶变换得到混合音频的振幅谱和相位谱;
混合音频的振幅谱经过神经网络分离出人声振幅谱和背景声音振幅谱;
将背景声音振幅谱与混合音频的相位谱进行短时逆傅里叶变换,得到背景声音的波形谱,从而完成背景声音的分离。
在优选实施例中,步骤2中所利用的神经网络为DRNN(Deep Recurrent NeuralNetwork,深度递归神经网络),进而,在优选实施例中,步骤2包括:利用DRNN(DeepRecurrent Neural Network,深度递归神经网络)将音频数据中的人声和背景声音进行分离。
图2示出了利用DRNN对音频数据中的人声和背景声音进行分离的流程,如图2所示,利用DRNN对音频数据中的人声和背景声音进行分离,具体可包括如下步骤:
步骤21、对音频数据进行短时傅里叶变换得到混合音频的振幅谱和相位谱;
步骤22、混合音频的振幅谱经过DRNN分离模型分离出人声振幅谱和背景声音振幅谱;
步骤23、将背景声音振幅谱与混合音频的相位谱进行短时逆傅里叶变换,得到背景声音的波形谱,从而完成背景声音的分离。
在可选实施例中,在利用DRNN进行人声分离的时候,DRNN分离模型的输入是短时傅里叶变换后的一帧振幅谱,DRNN分离模型输出两帧振幅谱并列成一个向量。例如输入的帧的大小为512KB,则输出的大小为1024KB,前512个点是分离后的一帧人声振幅谱,后512个点是分离后的一帧背景音的振幅谱。
关于DRNN的使用为本领域的已有技术,对于如何利用DRNN对音频数据中的声音进行分离,可依据DRNN的相关技术文档实现,此处不再赘述。
在可选实施例中,步骤3中的对背景声音进行识别,获得背景声音的类别,可包括:
利用声音判别模型对所述背景声音进行识别,获得所述背景声音的类别。
在可选实施例中,声音判别模型通过神经网络训练方法获得,例如,声音判别模型可通过以下步骤获得:
步骤31、采用特征提取器从环境音频数据集中提取特征向量;
步骤32、将特征向量进行神经网络训练,生成声音判别模型。
在优选实施例中,步骤31中采用的特征提取器为TensorFlow VGGish特征提取器,环境音频数据集采用YouTueb-8M数据集,步骤32中,将特征向量通过LSTM模型进行训练。
其中,YouTube-8M数据集是谷歌、YouTube共同举办的视频标签比赛,其中包含了大量的视频画面信息、音频信息、标签信息,是用于基于视频内容的标签分析研究的良好素材,其中所包含的音频信息包含了本发明实施例中进行背景声音识别所需要的训练集。TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现。关于YouTube-8M、TensorFlow、VGGish的功能和用法可以从已有的技术文档中查询。LSTM,即Long Short-Term Memory,长短期记忆网络,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。YouTueb-8M提供三种帧级处理模型,包括LSTM Model(LSTM模型)、DbofModel、FrameLevelLogisticModel,在本发明实施例中采用LSTM模型作为网络模型对特征向量进行训练,生成声音判别模型,训练的过程和调参过程不在此赘述,可以参考YouTube-8M官方技术文档,训练完成获得声音判别模型后,最终需要将背景声音的音频数据输入到声音判别模型的神经网络接口,得到背景声音的分类结果,即背景声音的类别。
在可选实施例中,步骤4中的将与背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示,包括:
在已存储有文字信息和/或图像信息的数据库中检索与背景声音的类别相匹配的文字信息和/或图像信息,并将检索到的文字信息和/或图像信息实时推送至当前正在播放的视频区域中显示。
在本发明实施例中,可通过预先设置数据库,将可用的待选文字信息和/或图像信息的预先存储于所设置的数据库中。数据库可设置于播放视频文件的终端本地,也可以存储于互联网服务器中。
在可选实施例中,背景声音的类别包括声音的名称和属性,上述的在已存储有文字信息和/或图像信息的数据库中检索与背景声音的类别相匹配的文字信息和/或图像信息,包括:
在数据库中检索与背景声音的名称和属性均相匹配的文字信息和/或图像信息。
其中,声音的名称表示声音的内容,例如哭泣声、老虎叫声、民国风音乐、风声等等,声音的属性表示声音的程度或者声音给人的感受或者声音所反映的情绪,例如哽咽的、凶猛的、优美的、呼啸的等等。对于同一种声音往往包括了多种程度,例如哭泣声可包括哽咽的、呜咽的、嚎啕大哭的等等,这些哭泣声之间存在较大的差别,这就需要在声音的名称基础上进一步进行区分,本发明实施例中由声音的属性表示这种区分。
在可选实施例中,在已存储有所述文字信息和/或图像信息的数据库中检索与背景声音的类别相匹配的文字信息和/或图像信息之后,并在将检索到的文字信息和/或图像信息实时推送至当前正在播放的视频区域中显示之前,本发明实施例的视频播放过程中的信息推送方法还包括:
在数据库中查询是否有与当前正在播放的视频的风格相一致的文字信息和/或图像信息的显示风格;
如果有,则将检索到的文字信息和/或图像信息采用与当前正在播放的视频的风格相一致的文字信息和/或图像信息的显示风格;
如果没有,则获取当前正在播放的视频的快照,并基于深度学习方法,将文字信息和/或图像信息的显示风格转换为与当前正在播放的视频的快照的风格相一致,并将转换后的文字信息和/或图像信息的显示风格保存于数据库中。
通过该可选实施例,可实现所显示的文字信息和/或图像信息之间显示风格的一致,例如对于可爱风格的视频则显示可爱风格的文字信息和/或图像信息,对于恐怖风格的视频则显示恐怖风格的文字信息和/或图像信息等。
在可选实施例中,步骤4中的将与背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示,还可包括:
在当前正在播放的视频上方建立透明的信息显示层;
将文字信息和/或图像信息推送至信息显示层中显示。
在可选实施例中,步骤4中的将与背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示,还可包括:
对当前正在播放的视频进行兴趣点分析,获得POI(Point of Interest,兴趣点)区域;
将文字信息和/或图像信息推送至当前正在播放的视频中的非POI区域。
其中,POI区域包括人物脸部区域和前景区域。人物脸部区域可通过人脸识别技术来确定,前景区域为非虚化区域。通过该可选实施例,可避免文字信息和/或图像信息遮挡视频中的主要显示区域,提升观看体验。
在可选实施例中,本发明实施例的视频播放过程中的信息推送方法还可包括:
接收用户输入的声音类别范围和/或字体库和/或图像库,并在所接收的声音类别范围和/或字体库和/或图像库内进行所述文字信息和/或图像信息的匹配。
通过该可选实施例,可有针对性提供的用户所需求的背景声音的信息,提供用户喜欢的字体和/或图像显示效果,并滤除用户不需要的背景声音的信息。
在可选实施例中,本发明实施例的视频播放过程中的信息推送方法还可包括:
接收用户输入的信息显示方式;
根据所述信息显示方式,在所述当前正在播放的视频区域中显示所述文字信息和/或图像信息。
其中,信息显示方式例如渐入渐出、突然出现、爆炸式出现等等。
以下分别以三个事例说明采用本发明实施例的视频播放过程中的信息推送方法的效果。
事例一:听障人士观看视频场景(AR(增强现实)/VR(虚拟现实)场景)
步骤a1:用户打开电视,进入系统设置界面,打开弹幕和标签开关,用户选择自己喜爱的声音类型例如动物的叫声、乐器演奏的声音等;用户从素材库中选择自己喜爱的图标类型;用户选择字体的艺术风格如琥珀体;显示方式例如选择渐入渐出。
步骤a2:用户佩戴好VR眼镜选某电视台的某个节目开始观看,观看过程中,视频图像和音频分离,将包含说话声音和背景声音的音频进行分离,例如当前正在播放到的视频内容是小姑娘在森林里采摘野果,突然传来老虎的叫声,小姑娘吓得流泪哽咽。
步骤a3:提取除去说话声音以外的背景声音,并解析出人类悲伤的哭声和老虎的凶残叫声。
步骤a4:根据声音的类别(包括名称和属性)从本地数据库或者互联网中匹配到了一张哽咽的图标,并从本地数据库中匹配到了VR动画格式的老虎,将哽咽的图标和VR动画格式的老虎风格化为当前视频的风格,最后将哽咽的图标渲染到屏幕中小姑娘的左侧,然后播放VR动画格式的老虎,在VR眼镜中,一只猛虎缓缓的从屏幕的左后方慢慢向正前方靠近。
事例二:不方便打开声音观看视频场景
夜晚睡觉前,用户打开平板电脑,想观看视频,但是又不方便打开扬声器,以防影响孩子或者其他人休息,然而身边又没有耳机,所以此时可以采用本发明的方法。
步骤b1:进入系统设置界面,打开弹幕和标签开关;用户选择自己喜爱的声音类型:动物的叫声、乐器演奏的声音等;用户从素材库中选择自己喜爱的图标类型;用户选择字体的艺术风格如琥珀体;显示方式选择渐入渐出。
步骤b2:用户选择民国风电视剧开始观看,观看过程中,视频图像和音频分离,将包含说话声音和背景声音进行分离,例如当前正在播放到的视频内容是一对情侣骑着自行车,背景音是优美的民国音乐。
步骤b3:提取除去说话声音以外的背景声音,并解析出优美的老唱片的声音。
步骤b4:根据声音的类别(包括名称和属性)从本地数据库或者互联网中匹配到了一张唱片机播放音乐的图标,将唱片机播放音乐的图标风格化为当前视频的风格,最后将唱片机播放音乐的图标显示在屏幕上。
事例三:嘈杂环境下观看视频的场景
乘坐地铁已经成为绝大多数人的出行方式,现在的城市越来越大,好多人需要乘坐一个小时乃至更长的时间,使用手机观看视频成为一种非常好的打发时间的好方法。但是地铁的环境比较嘈杂,带上耳机如果音量调的过大,会损害听力,调小音量了又听不清声音,所以此时可以采用本发明的方法。
步骤c1:进入系统设置界面,打开弹幕和标签开关;用户选择自己喜爱的声音类型:风声、动物的叫声、乐器演奏的声音等;用户从素材库中选择自己喜爱的图标类型;用户选择字体的艺术风格如琥珀体;显示方式选择渐入渐出。
步骤c2:用户选择观看的视频,观看过程中,视频图像和音频分离,将包含说话声音和背景声音进行分离,例如当前正在播放一段山顶的风光,视频的画面是天气晴朗,风和日丽,但实际上却是风起云涌。
步骤c3:提取除去说话声音以外的背景声音,并解析出呼啸的风声。
步骤c4:根据声音的类别(包括名称和属性)从本地数据库或者互联网中匹配到了一张龙卷风呼啸的图标,将龙卷风呼啸的图标风格化为当前视频的风格,最后将龙卷风呼啸的图标显示在屏幕上。
本发明实施例还提供了一种视频播放过程中的信息推送装置,如图3所示,包括音频提取模块11、背景声音分离模块12、背景声音分类模块13、文字图像匹配模块14和文字图像推送模块15。其中,音频提取模块11用于从当前正在播放的视频文件中提取当前正在播放的音频数据。背景声音分离模块12用于从音频数据中分离出背景声音。背景声音分类模块13用于对背景声音进行识别,获得背景声音的类别。文字图像匹配模块14用于将背景声音的类别与文字信息和/或图像信息进行匹配,获得与背景声音的类别相匹配的文字信息和/或图像信息。文字图像推送模块15用于将与背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示。
本发明实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上述各项实施例中所述的视频播放过程中的信息推送方法中的步骤。
本发明实施例还提供了一种电子设备,其结构可参见图4所示,该电子设备包括:至少一个处理器21;以及,与所述至少一个处理器21通信连接的存储器22;其中,所述存储器22存储有可被所述至少一个处理器21执行的指令,所述指令被所述至少一个处理器21执行,以使所述至少一个处理器21执行如上述各项实施例中任一项所述的视频播放过程中的信息推送方法中的步骤。
本发明实施例的视频播放过程中的信息推送方法和装置,在播放视频的过程中获取正在播放的音频数据,并分离出背景声音,对背景声音进行识别,获得背景声音的类别,进而将与背景声音的类别相匹配的文字信息和/或图像信息推送至正在播放的视频区域中显示。从而实现了对视频背景声音的文字形式和图像形式的可视信息的展示,从而使得人们能够在无需听到视频中的声音情况下获得视频中的声音所表达的信息,同时本发明实施例也降低了听障人士对视频中声音信息的获取难度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (14)
1.一种视频播放过程中的信息推送方法,包括:
从当前正在播放的视频文件中提取当前正在播放的音频数据;
从所述音频数据中分离出背景声音;
对所述背景声音进行识别,获得所述背景声音的类别;
将与所述背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示。
2.根据权利要求1所述的视频播放过程中的信息推送方法,其特征在于,所述的从当前正在播放的视频文件中提取当前正在播放的音频数据,包括:
将当前正在播放的视频文件中的正在播放的音频数据从所述视频文件中提取出来。
3.根据权利要求1所述的视频播放过程中的信息推送方法,其特征在于,所述的从所述音频数据中分离出背景声音,包括:
利用神经网络将所述音频数据中的人声和背景声音进行分离;
其中,所述背景声音为所述音频数据中不包含人声的声音。
4.根据权利要求3所述的视频播放过程中的信息推送方法,其特征在于,利用神经网络将所述音频数据中的人声和背景声音进行分离,包括:
对所述音频数据进行短时傅里叶变换得到混合音频的振幅谱和相位谱;
所述混合音频的振幅谱经过所述神经网络分离出人声振幅谱和背景声音振幅谱;
将所述背景声音振幅谱与所述混合音频的相位谱进行短时逆傅里叶变换,得到所述背景声音的波形谱,从而完成所述背景声音的分离。
5.根据权利要求1所述的视频播放过程中的信息推送方法,其特征在于,所述的对所述背景声音进行识别,获得所述背景声音的类别,包括:
利用声音判别模型对所述背景声音进行识别,获得所述背景声音的类别。
6.根据权利要求5所述的视频播放过程中的信息推送方法,其特征在于,所述声音判别模型通过如下方法获得:
采用特征提取器从环境音频数据集中提取特征向量;
将所述特征向量进行神经网络训练,生成所述声音判别模型。
7.根据权利要求1所述的视频播放过程中的信息推送方法,其特征在于,所述的将与所述背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示,包括:
在已存储有所述文字信息和/或图像信息的数据库中检索与所述背景声音的类别相匹配的文字信息和/或图像信息,并将检索到的文字信息和/或图像信息实时推送至当前正在播放的视频区域中显示。
8.根据权利要求7所述的视频播放过程中的信息推送方法,其特征在于:
所述背景声音的类别包括声音的名称和属性,所述的在已存储有所述文字信息和/或图像信息的数据库中检索与所述背景声音的类别相匹配的文字信息和/或图像信息,包括:
在所述数据库中检索与所述背景声音的名称和属性均相匹配的文字信息和/或图像信息。
9.根据权利要求7所述的视频播放过程中的信息推送方法,其特征在于,在已存储有所述文字信息和/或图像信息的数据库中检索与所述背景声音的类别相匹配的文字信息和/或图像信息之后,并在将检索到的文字信息和/或图像信息实时推送至当前正在播放的视频区域中显示之前,所述方法还包括:
在所述数据库中查询是否有与当前正在播放的视频的风格相一致的文字信息和/或图像信息的显示风格;
如果有,则将所述检索到的文字信息和/或图像信息采用与当前正在播放的视频的风格相一致的文字信息和/或图像信息的显示风格;
如果没有,则获取当前正在播放的视频的快照,并基于深度学习方法,将所述文字信息和/或图像信息的显示风格转换为与所述当前正在播放的视频的快照的风格相一致,并将转换后的所述文字信息和/或图像信息的显示风格保存于所述数据库中。
10.根据权利要求1所述的视频播放过程中的信息推送方法,其特征在于,所述的将与所述背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示,包括:
在所述当前正在播放的视频上方建立透明的信息显示层;
将所述文字信息和/或图像信息推送至所述信息显示层中显示。
11.根据权利要求1所述的视频播放过程中的信息推送方法,其特征在于,所述的将与所述背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示,包括:
对所述当前正在播放的视频进行兴趣点分析,获得兴趣点POI区域;
将所述文字信息和/或图像信息推送至当前正在播放的视频中的非POI区域。
12.根据权利要求1所述的视频播放过程中的信息推送方法,其特征在于,所述方法还包括:
接收用户输入的声音类别范围和/或字体库和/或图像库,并在所接收的声音类别范围和/或字体库和/或图像库内进行所述文字信息和/或图像信息的匹配。
13.根据权利要求1所述的视频播放过程中的信息推送方法,其特征在于,所述方法还包括:
接收用户输入的信息显示方式;
根据所述信息显示方式,在所述当前正在播放的视频区域中显示所述文字信息和/或图像信息。
14.一种视频播放过程中的信息推送装置,其特征在于,包括:
音频提取模块,用于从当前正在播放的视频文件中提取当前正在播放的音频数据;
背景声音分离模块,用于从所述音频数据中分离出背景声音;
背景声音分类模块,用于对所述背景声音进行识别,获得所述背景声音的类别;
显示信息匹配模块,用于将所述背景声音的类别与文字信息和/或图像信息进行匹配,获得与所述背景声音的类别相匹配的文字信息和/或图像信息;以及,
显示信息推送模块,用于将与所述背景声音的类别相匹配的文字信息和/或图像信息推送至当前正在播放的视频区域中显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910597924.7A CN110324702B (zh) | 2019-07-04 | 2019-07-04 | 视频播放过程中的信息推送方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910597924.7A CN110324702B (zh) | 2019-07-04 | 2019-07-04 | 视频播放过程中的信息推送方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110324702A true CN110324702A (zh) | 2019-10-11 |
CN110324702B CN110324702B (zh) | 2022-06-07 |
Family
ID=68122558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910597924.7A Active CN110324702B (zh) | 2019-07-04 | 2019-07-04 | 视频播放过程中的信息推送方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110324702B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838173A (zh) * | 2021-09-23 | 2021-12-24 | 厦门大学 | 一种受语音和背景声联合驱动的虚拟人头部运动合成方法 |
CN114998880A (zh) * | 2022-05-18 | 2022-09-02 | 慧之安信息技术股份有限公司 | 基于lstm技术的暴力低俗弹幕检测方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH113099A (ja) * | 1997-04-16 | 1999-01-06 | Mitsubishi Electric Corp | 音声符号化復号化システム、音声符号化装置及び音声復号化装置 |
CN1581282A (zh) * | 2003-08-15 | 2005-02-16 | 株式会社东芝 | 隐藏字幕控制装置及其所用的方法 |
CN103686340A (zh) * | 2013-12-05 | 2014-03-26 | 深圳Tcl新技术有限公司 | 电子播放设备的节目播放方法及电子播放设备 |
CN104464727A (zh) * | 2014-12-11 | 2015-03-25 | 福州大学 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
CN105979336A (zh) * | 2015-12-03 | 2016-09-28 | 乐视致新电子科技(天津)有限公司 | 一种开机广告的处理方法及装置 |
CN109285539A (zh) * | 2018-11-28 | 2019-01-29 | 中国电子科技集团公司第四十七研究所 | 一种基于神经网络的声音识别方法 |
CN109389992A (zh) * | 2018-10-18 | 2019-02-26 | 天津大学 | 一种基于振幅和相位信息的语音情感识别方法 |
US10225621B1 (en) * | 2017-12-20 | 2019-03-05 | Dish Network L.L.C. | Eyes free entertainment |
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
CN109545240A (zh) * | 2018-11-19 | 2019-03-29 | 清华大学 | 一种人机交互的声音分离的方法 |
CN109584897A (zh) * | 2018-12-28 | 2019-04-05 | 努比亚技术有限公司 | 视频降噪方法、移动终端及计算机可读存储介质 |
CN109767760A (zh) * | 2019-02-23 | 2019-05-17 | 天津大学 | 基于振幅和相位信息的多目标学习的远场语音识别方法 |
-
2019
- 2019-07-04 CN CN201910597924.7A patent/CN110324702B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH113099A (ja) * | 1997-04-16 | 1999-01-06 | Mitsubishi Electric Corp | 音声符号化復号化システム、音声符号化装置及び音声復号化装置 |
CN1581282A (zh) * | 2003-08-15 | 2005-02-16 | 株式会社东芝 | 隐藏字幕控制装置及其所用的方法 |
CN103686340A (zh) * | 2013-12-05 | 2014-03-26 | 深圳Tcl新技术有限公司 | 电子播放设备的节目播放方法及电子播放设备 |
CN104464727A (zh) * | 2014-12-11 | 2015-03-25 | 福州大学 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
CN105979336A (zh) * | 2015-12-03 | 2016-09-28 | 乐视致新电子科技(天津)有限公司 | 一种开机广告的处理方法及装置 |
US10225621B1 (en) * | 2017-12-20 | 2019-03-05 | Dish Network L.L.C. | Eyes free entertainment |
CN109389992A (zh) * | 2018-10-18 | 2019-02-26 | 天津大学 | 一种基于振幅和相位信息的语音情感识别方法 |
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
CN109545240A (zh) * | 2018-11-19 | 2019-03-29 | 清华大学 | 一种人机交互的声音分离的方法 |
CN109285539A (zh) * | 2018-11-28 | 2019-01-29 | 中国电子科技集团公司第四十七研究所 | 一种基于神经网络的声音识别方法 |
CN109584897A (zh) * | 2018-12-28 | 2019-04-05 | 努比亚技术有限公司 | 视频降噪方法、移动终端及计算机可读存储介质 |
CN109767760A (zh) * | 2019-02-23 | 2019-05-17 | 天津大学 | 基于振幅和相位信息的多目标学习的远场语音识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838173A (zh) * | 2021-09-23 | 2021-12-24 | 厦门大学 | 一种受语音和背景声联合驱动的虚拟人头部运动合成方法 |
CN113838173B (zh) * | 2021-09-23 | 2023-08-22 | 厦门大学 | 一种受语音和背景声联合驱动的虚拟人头部运动合成方法 |
CN114998880A (zh) * | 2022-05-18 | 2022-09-02 | 慧之安信息技术股份有限公司 | 基于lstm技术的暴力低俗弹幕检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110324702B (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109547819B (zh) | 直播列表展示方法、装置以及电子设备 | |
JP3953886B2 (ja) | 字幕抽出装置 | |
CN102111601B (zh) | 内容可适性的多媒体处理系统与处理方法 | |
CN109257659A (zh) | 字幕添加方法、装置、电子设备及计算机可读存储介质 | |
CN105210376B (zh) | 使用音频流识别与当前播放的电视节目相关联的元数据 | |
EP3100459A1 (en) | Methods and apparatus to synchronize second screen content with audio/video programming using closed captioning data | |
CN102209184A (zh) | 电子装置、再现控制系统、再现控制方法和用于其的程序 | |
WO2006077536A2 (en) | Automatic generation of trailers containing product placements | |
CN112423081B (zh) | 一种视频数据处理方法、装置、设备及可读存储介质 | |
US20030219708A1 (en) | Presentation synthesizer | |
JP2011239141A (ja) | 情報処理方法、情報処理装置、情景メタデータ抽出装置、欠損補完情報生成装置及びプログラム | |
KR101927965B1 (ko) | 광고 동영상 제작 시스템 및 방법 | |
CN105224581A (zh) | 在播放音乐时呈现图片的方法和装置 | |
CN107454346B (zh) | 影视数据解析方法、视频制作模板推荐方法、装置及设备 | |
CN114157920A (zh) | 一种展示手语的播放方法、装置、智能电视及存储介质 | |
CN110324702A (zh) | 视频播放过程中的信息推送方法和装置 | |
CN108140056A (zh) | 媒体节目时刻指南 | |
Tsai | Television news translation in the era of market-driven journalism | |
CN110337041B (zh) | 视频播放方法、装置、计算机设备及存储介质 | |
CN104009965A (zh) | 一种展示移动媒体信息的方法、装置和系统 | |
JP2013131968A (ja) | 映像再生装置及び映像再生方法 | |
KR101408722B1 (ko) | 블루투스 통신이 가능한 코드인식펜을 이용하여 책자형 교재의 정보를 재생시키는 교재재생앱이 탑재된 스마트기기 | |
CN110275988A (zh) | 获取图片的方法及装置 | |
CN110225383A (zh) | 交互式网络电视中推送信息的加载方法 | |
CN115633223A (zh) | 视频处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |