CN110177298A - 一种基于语音的视频倍速播放方法及系统 - Google Patents
一种基于语音的视频倍速播放方法及系统 Download PDFInfo
- Publication number
- CN110177298A CN110177298A CN201910443874.7A CN201910443874A CN110177298A CN 110177298 A CN110177298 A CN 110177298A CN 201910443874 A CN201910443874 A CN 201910443874A CN 110177298 A CN110177298 A CN 110177298A
- Authority
- CN
- China
- Prior art keywords
- speed
- video
- file
- voice
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开了一种基于语音的视频倍速播放方法及系统,在视频文件预处理时包括:步骤A,读取视频文件中的语音信息;步骤B,对语音信息进行分析,根据其快慢将视频文件分解为多段子视频,获得各子视频段基于对应语音信息的倍速速率;步骤C,利用各子视频段对应的倍速速率形成倍速描述文件;在视频文件播放时包括:步骤D,加载并解析倍速描述文件;步骤E,视频文件播放至某子视频段时,根据倍速描述文件中的该子视频段对应的倍速速率播放视频文件。本发明能够通过视频中的语音自动计算倍速速率,使得用户能够以智能变化的最合适的倍速速率看完整部视频,在视频倍速播放过程中,倍速速率能够进行自动智能调整,无需用户手动调整,用户体验好。
Description
技术领域
本发明属于视频倍速播放技术领域,特别涉及一种基于语音的视频倍速播放方法及系统。
背景技术
观看视频时,尤其是观看网络视频时,若需要尽快看完一部视频,用户通常会选择倍速播放。
目前市场上现有视频播放终端均提供了固定倍速支持,但所有播放器均无自动倍速支持,因而需要用户根据视频中的语音播放快慢切换播放倍速速率,即需要人工判断并选择合适的倍速速率播放,而无法做到自动倍速或智能倍速播放。
发明内容
本发明的目的在于,针对上述现有技术的不足,提供一种基于语音的视频倍速播放方法及系统,能够通过视频中的语音自动计算倍速速率,使得用户能够以智能变化的最合适的倍速速率看完整部视频,在视频倍速播放过程中,倍速速率能够进行自动智能调整,而无需用户手动调整倍速速率,用户体验好。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于语音的视频倍速播放方法,其特点是:
在视频文件预处理时,包括以下步骤:
步骤A,读取视频文件中的语音信息;
步骤B,对所述语音信息进行分析,根据语音信息的快慢将视频文件分解为对应的多段子视频,并获得各子视频段基于对应语音信息的倍速速率;
步骤C,利用各子视频段对应的倍速速率按照时间顺序形成倍速描述文件;
在视频文件播放时,包括以下步骤:
步骤D,加载并解析倍速描述文件;
步骤E,视频文件播放至某子视频段时,根据倍速描述文件中的该子视频段对应的倍速速率播放视频文件。
作为一种优选方式,所述步骤B中,各子视频段基于语音信息的倍速速率确定方法为:根据语音信息识别结果,计算吐词速度,对比90%以上人群能够听懂的最快吐词速度,计算各子视频段的倍速速率。
作为另一种优选方式,所述步骤B中,各子视频段基于语音信息的倍速速率确定方法为:使用机器学习方法训练语音倍速播放模型,将语音信息识别结果输入语音倍速播放模型,获得各子视频段的倍速速率。
作为一种优选方式,倍速描述文件和对应的视频文件一起分发。
基于同一个发明构思,本发明还提供了一种基于语音的视频倍速播放系统,其特点是包括:
语音信息读取单元:用于在视频文件播放器读取视频文件中的语音信息;
语音信息分析单元:用于对语音信息读取单元读取的语音信息进行分析,根据语音信息的快慢将视频文件分解为对应的多段子视频,并获得各子视频段基于对应语音信息的倍速速率;
倍速描述文件形成单元:用于利用各子视频段对应的倍速速率按照时间顺序形成倍速描述文件;
播放器:用于播放视频文件,并用于加载并解析倍速描述文件;在视频文件播放至某子视频段时,根据倍速描述文件中的该子视频段对应的倍速速率播放视频文件。
作为一种优选方式,所述语音信息分析单元中,根据语音信息识别结果,计算吐词速度,对比90%以上人群能够听懂的最快吐词速度,计算各子视频段的倍速速率。
作为另一种优选方式,所述语音信息分析单元中,使用机器学习方法训练语音倍速播放模型,将语音信息识别结果输入语音倍速播放模型,获得各子视频段的倍速速率。
作为一种优选方式,倍速描述文件和对应的视频文件一起分发至播放器。
与现有技术相比,本发明能够通过视频中的语音自动计算倍速速率,使得用户能够以智能变化的最合适的倍速速率看完整部视频,在视频倍速播放过程中,倍速速率能够进行自动智能调整,而无需用户手动调整倍速速率,用户体验好。
附图说明
图1为本发明一实施例原理图。
具体实施方式
如图1所示,本发明所述的基于语音的视频倍速播放方法中,在视频文件预处理时,包括以下步骤:
步骤A,读取视频文件中的语音信息;
步骤B,对所述语音信息进行分析,根据语音信息的快慢将视频文件分解为对应的多段子视频,并获得各子视频段基于对应语音信息的倍速速率;从而得到适合每段子视频播放的倍速速率。
各子视频段基于语音信息的倍速速率确定方法有多种,在一种方式中,根据语音信息识别结果,计算吐词速度,对比大多数人(如90%以上人群)能够听懂的最快吐词速度,计算各子视频段的倍速速率。在另一种方式中,使用机器学习方法训练语音倍速播放模型,将语音信息识别结果输入语音倍速播放模型,获得各子视频段的倍速速率。视频中的每段可基于视频中语音计算倍速速率,在保证用户听得清的前提下,视频文件能够基于语音自动调整倍速速率。
步骤C,利用各子视频段对应的倍速速率按照时间顺序形成倍速描述文件;倍速描述文件可以和对应的视频文件保存在一起,并一起分发。
本实施例中,倍速描述文件包含子视频段的时间点及其对应的倍速速率。直到遇到下一个子视频段的时间点前,均保持前一个时间点的播放倍速速率。倍速描述文件一个示例如下:
00:00:00,000 1
00:05:00,100 2
00:15:00,123 1.2
时间点格式为hours:minutes:seconds,milliseconds
上述倍速描述文件的含义为:视频文件从开始以正常倍速播放,第5分钟100毫秒切换为2倍速速率播放,第15分钟123毫秒切换为1.2倍速速率播放至下一个时间点或视频播放结束。
步骤A~步骤C在视频文件预处理时处理好即可,每个视频文件只需处理一次。
在视频文件播放时,包括以下步骤:
步骤D,加载并解析倍速描述文件;
步骤E,视频文件播放至某子视频段时,根据倍速描述文件中的该子视频段对应的倍速速率播放视频文件。
播放器播放视频文件时,还需要加载并解析倍速描述文件,从而根据倍速描述文件中的时间点及倍速速率信息自动切换视频文件的倍速速率。
本发明所述的基于语音的视频倍速播放系统包括:
语音信息读取单元:用于在视频文件播放器读取视频文件中的语音信息;
语音信息分析单元:用于对语音信息读取单元读取的语音信息进行分析,根据语音信息的快慢将视频文件分解为对应的多段子视频,并获得各子视频段基于对应语音信息的倍速速率;
倍速描述文件形成单元:用于利用各子视频段对应的倍速速率按照时间顺序形成倍速描述文件;其中,倍速描述文件和对应的视频文件一起分发至播放器,供播放器使用。
播放器:用于播放视频文件,并用于加载并解析倍速描述文件;在视频文件播放至某子视频段时,根据倍速描述文件中的该子视频段对应的倍速速率播放视频文件。
在第一种方案中,所述语音信息分析单元中,根据语音信息识别结果,计算吐词速度,对比90%以上人群能够听懂的最快吐词速度,计算各子视频段的倍速速率。
在第二种方案中,所述语音信息分析单元中,使用机器学习方法训练语音倍速播放模型,将语音信息识别结果输入语音倍速播放模型,获得各子视频段的倍速速率。
如图1所示,在视频文件预处理后生成的倍速描述文件与对应的视频文件一起,存放于视频源站服务器。然后,播放器通过网络访问视频源站服务器或CDN服务器,从视频源站服务器或CDN服务器上获得视频文件与对应的倍速描述文件,从而自动调整倍速速率对视频文件进行播放。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是局限性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护范围之内。
Claims (8)
1.一种基于语音的视频倍速播放方法,其特征在于,
在视频文件预处理时,包括以下步骤:
步骤A,读取视频文件中的语音信息;
步骤B,对所述语音信息进行分析,根据语音信息的快慢将视频文件分解为对应的多段子视频,并获得各子视频段基于对应语音信息的倍速速率;
步骤C,利用各子视频段对应的倍速速率按照时间顺序形成倍速描述文件;
在视频文件播放时,包括以下步骤:
步骤D,加载并解析倍速描述文件;
步骤E,视频文件播放至某子视频段时,根据倍速描述文件中的该子视频段对应的倍速速率播放视频文件。
2.如权利要求1所述的基于语音的视频倍速播放方法,其特征在于,所述步骤B中,各子视频段基于语音信息的倍速速率确定方法为:根据语音信息识别结果,计算吐词速度,对比90%以上人群能够听懂的最快吐词速度,计算各子视频段的倍速速率。
3.如权利要求1所述的基于语音的视频倍速播放方法,其特征在于,所述步骤B中,各子视频段基于语音信息的倍速速率确定方法为:使用机器学习方法训练语音倍速播放模型,将语音信息识别结果输入语音倍速播放模型,获得各子视频段的倍速速率。
4.如权利要求1至3任一项所述的基于语音的视频倍速播放方法,其特征在于,倍速描述文件和对应的视频文件一起分发。
5.一种基于语音的视频倍速播放系统,其特征在于,包括:
语音信息读取单元:用于在视频文件播放器读取视频文件中的语音信息;
语音信息分析单元:用于对语音信息读取单元读取的语音信息进行分析,根据语音信息的快慢将视频文件分解为对应的多段子视频,并获得各子视频段基于对应语音信息的倍速速率;
倍速描述文件形成单元:用于利用各子视频段对应的倍速速率按照时间顺序形成倍速描述文件;
播放器:用于播放视频文件,并用于加载并解析倍速描述文件;在视频文件播放至某子视频段时,根据倍速描述文件中的该子视频段对应的倍速速率播放视频文件。
6.如权利要求5所述的基于语音的视频倍速播放系统,其特征在于,所述语音信息分析单元中,根据语音信息识别结果,计算吐词速度,对比90%以上人群能够听懂的最快吐词速度,计算各子视频段的倍速速率。
7.如权利要求5所述的基于语音的视频倍速播放系统,其特征在于,所述语音信息分析单元中,使用机器学习方法训练语音倍速播放模型,将语音信息识别结果输入语音倍速播放模型,获得各子视频段的倍速速率。
8.如权利要求5至7任一项所述的基于语音的视频倍速播放系统,其特征在于,倍速描述文件和对应的视频文件一起分发至播放器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910443874.7A CN110177298B (zh) | 2019-05-27 | 2019-05-27 | 一种基于语音的视频倍速播放方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910443874.7A CN110177298B (zh) | 2019-05-27 | 2019-05-27 | 一种基于语音的视频倍速播放方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110177298A true CN110177298A (zh) | 2019-08-27 |
CN110177298B CN110177298B (zh) | 2021-03-26 |
Family
ID=67695860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910443874.7A Active CN110177298B (zh) | 2019-05-27 | 2019-05-27 | 一种基于语音的视频倍速播放方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110177298B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111356010A (zh) * | 2020-04-01 | 2020-06-30 | 上海依图信息技术有限公司 | 一种获取音频最适播放速度的方法与系统 |
CN112423019A (zh) * | 2020-11-17 | 2021-02-26 | 北京达佳互联信息技术有限公司 | 调整音频播放速度的方法、装置、电子设备及存储介质 |
CN112511407A (zh) * | 2020-10-30 | 2021-03-16 | 国网山东省电力公司泰安供电公司 | 自适应语音播放方法和系统 |
CN112565881A (zh) * | 2020-12-28 | 2021-03-26 | 北京五街科技有限公司 | 一种自适应的视频播放方法 |
CN112565880A (zh) * | 2020-12-28 | 2021-03-26 | 北京五街科技有限公司 | 一种讲解类视频的播放方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102469309A (zh) * | 2010-11-16 | 2012-05-23 | 扬智科技股份有限公司 | 影像处理方法 |
CN103856819A (zh) * | 2012-11-30 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 播放速度调整装置及方法 |
CN106534964A (zh) * | 2016-11-23 | 2017-03-22 | 广东小天才科技有限公司 | 一种语速调节方法和装置 |
CN107193841A (zh) * | 2016-03-15 | 2017-09-22 | 北京三星通信技术研究有限公司 | 媒体文件加速播放、传输及存储的方法和装置 |
CN108401193A (zh) * | 2018-03-21 | 2018-08-14 | 北京奇艺世纪科技有限公司 | 一种视频播放方法、装置和电子设备 |
US20180240462A1 (en) * | 2008-07-28 | 2018-08-23 | International Business Machines Corporation | Speed podcasting |
CN108495149A (zh) * | 2018-03-16 | 2018-09-04 | 优酷网络技术(北京)有限公司 | 多媒体内容播放方法及装置 |
CN109151595A (zh) * | 2018-09-30 | 2019-01-04 | 北京微播视界科技有限公司 | 视频处理方法、装置、终端和介质 |
CN109151572A (zh) * | 2018-09-21 | 2019-01-04 | 北京奇艺世纪科技有限公司 | 一种播放方法及装置 |
-
2019
- 2019-05-27 CN CN201910443874.7A patent/CN110177298B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180240462A1 (en) * | 2008-07-28 | 2018-08-23 | International Business Machines Corporation | Speed podcasting |
CN102469309A (zh) * | 2010-11-16 | 2012-05-23 | 扬智科技股份有限公司 | 影像处理方法 |
CN103856819A (zh) * | 2012-11-30 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 播放速度调整装置及方法 |
CN107193841A (zh) * | 2016-03-15 | 2017-09-22 | 北京三星通信技术研究有限公司 | 媒体文件加速播放、传输及存储的方法和装置 |
CN106534964A (zh) * | 2016-11-23 | 2017-03-22 | 广东小天才科技有限公司 | 一种语速调节方法和装置 |
CN108495149A (zh) * | 2018-03-16 | 2018-09-04 | 优酷网络技术(北京)有限公司 | 多媒体内容播放方法及装置 |
CN108401193A (zh) * | 2018-03-21 | 2018-08-14 | 北京奇艺世纪科技有限公司 | 一种视频播放方法、装置和电子设备 |
CN109151572A (zh) * | 2018-09-21 | 2019-01-04 | 北京奇艺世纪科技有限公司 | 一种播放方法及装置 |
CN109151595A (zh) * | 2018-09-30 | 2019-01-04 | 北京微播视界科技有限公司 | 视频处理方法、装置、终端和介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111356010A (zh) * | 2020-04-01 | 2020-06-30 | 上海依图信息技术有限公司 | 一种获取音频最适播放速度的方法与系统 |
CN112511407A (zh) * | 2020-10-30 | 2021-03-16 | 国网山东省电力公司泰安供电公司 | 自适应语音播放方法和系统 |
CN112511407B (zh) * | 2020-10-30 | 2022-04-29 | 国网山东省电力公司泰安供电公司 | 自适应语音播放方法和系统 |
CN112423019A (zh) * | 2020-11-17 | 2021-02-26 | 北京达佳互联信息技术有限公司 | 调整音频播放速度的方法、装置、电子设备及存储介质 |
CN112423019B (zh) * | 2020-11-17 | 2022-11-22 | 北京达佳互联信息技术有限公司 | 调整音频播放速度的方法、装置、电子设备及存储介质 |
CN112565881A (zh) * | 2020-12-28 | 2021-03-26 | 北京五街科技有限公司 | 一种自适应的视频播放方法 |
CN112565880A (zh) * | 2020-12-28 | 2021-03-26 | 北京五街科技有限公司 | 一种讲解类视频的播放方法 |
CN112565881B (zh) * | 2020-12-28 | 2023-03-24 | 北京五街科技有限公司 | 自适应的视频播放方法和系统 |
CN112565880B (zh) * | 2020-12-28 | 2023-03-24 | 北京五街科技有限公司 | 讲解类视频的播放方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110177298B (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110177298A (zh) | 一种基于语音的视频倍速播放方法及系统 | |
US20220028394A1 (en) | Semiautomated relay method and apparatus | |
US11368581B2 (en) | Semiautomated relay method and apparatus | |
US11664029B2 (en) | Semiautomated relay method and apparatus | |
CN103718166B (zh) | 信息处理设备、信息处理方法 | |
US20070214471A1 (en) | System, method and computer program product for providing collective interactive television experiences | |
US20220103683A1 (en) | Semiautomated relay method and apparatus | |
CN107193841A (zh) | 媒体文件加速播放、传输及存储的方法和装置 | |
CN104795083B (zh) | 一种信息处理方法和电子设备 | |
CN110379441B (zh) | 一种基于对抗型人工智能网络的语音服务方法与系统 | |
CN104869430B (zh) | 一种视频倍速播放方法及装置 | |
CN108093526A (zh) | Led灯的控制方法、装置和可读存储介质 | |
Kurihara et al. | Automatic generation of audio descriptions for sports programs | |
CN111460094A (zh) | 一种基于tts的音频拼接优化的方法及其装置 | |
CN112820289A (zh) | 语音播放方法、语音播放系统、电器和可读存储介质 | |
CN116233498B (zh) | 一种基于ai人工智能的影音视频播放控制方法 | |
CN113784149B (zh) | 一种视频信号的热度区域的展示方法、装置及设备 | |
CN106851422A (zh) | 一种视频播放自动暂停处理方法与系统 | |
CN112133300B (zh) | 多设备的交互方法、相关设备和系统 | |
CN108364658A (zh) | 虚拟聊天方法及服务端 | |
CN113905259A (zh) | 音视频的播放方法、装置、设备以及计算机可读存储介质 | |
CN117573859A (zh) | 自动推进剧情和对话的数据处理方法、系统及设备 | |
CN115910111A (zh) | 语音交互方法、装置、智能设备及计算机可读存储介质 | |
CN116913471A (zh) | 一种基于人工智能的营养咨询方法 | |
NZ753695A (en) | Semiautomated relay method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |