CN111356010A - 一种获取音频最适播放速度的方法与系统 - Google Patents
一种获取音频最适播放速度的方法与系统 Download PDFInfo
- Publication number
- CN111356010A CN111356010A CN202010249215.2A CN202010249215A CN111356010A CN 111356010 A CN111356010 A CN 111356010A CN 202010249215 A CN202010249215 A CN 202010249215A CN 111356010 A CN111356010 A CN 111356010A
- Authority
- CN
- China
- Prior art keywords
- voice
- audio
- speed
- unit
- variable speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4392—Processing of audio elementary streams involving audio buffer management
Abstract
本发明公开了一种获取音频最适播放速度的方法与系统,方法包括以下步骤:对音频进行处理得到多个分段语音;对一个或多个所述分段语音进行倍数的变速得到变速语音;将所述变速语音进行语音识别后输出语音识别结果;根据该语音识别结果调整所述变速语音的播放速度;系统包括:音频处理单元,用于对音频进行处理,生成多个分段语音;语音处理单元,用于分别对多个所述分段语音进行倍数的变速,生成变速语音;语音识别单元,用于识别所述变速语音进行理解程度的分析输出得到语音识别结果;语音调整单元,根据所述语音识别结果对所述变速语音进行调整。
Description
技术领域
本发明涉及音频最适播放速度的方法与系统领域,具体涉及一种获取音频最适播放速度的方法与系统。
背景技术
随着信息技术的发展,互联网的普及,实现人机之间人性化、智能化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求;
近年来,随着语音识别技术的飞速发展,语音输入、语音识别、语音判断、语音播放、语音调速等各种在线语音识别受到了越来越多的关注;
在进行音频或视频的播放时,由于不同用户对接收音频或视频带来的信息速度不同时,用户会对音频或视频进行倍速播放,在进行倍速播放时,视频帧播放会按照固定的帧间间隔选择一帧视频帧进行播放,该帧间间隔的其他视频将会丢弃,选择的视频帧会按照原来的帧率进行播放,从而达到视频倍速播放的效果,但是音频没有办法按照该方法进行处理,如果不做分析地按照固定帧间间隔选择一帧音频并丢弃该帧间间隔的其余帧,则会造成吐字不清楚,甚至噪音的效果,如果是视频中的音频,由于影片、视频播放时的声音与画面是同时进行的,需要同时对画面与音频进行倍速调节;
并且,目前对于音频的调节均是等倍速的进行调节,每段音频的语速与发音都会有所不同,等倍速的调节往往会造成一段清楚一段不清楚,无法听清整段的音频。
发明内容
本发明要解决的技术问题是现有的技术不能够音频或视频依据需要进行等倍速的调节,因此本发明提供一种获取音频最适播放速度的方法,将音频分割成多段的语音,可采取将音频中每一句进行分割形成多段语音或将音频中说话人自己说话时的间隔分割成多段语音,再对每段语音进行单独的倍速调整,使得能够根据每段语音不同的速度进行调节,以达到最清晰的目的;
通过新增的语音识别单元对变速语音进行与文字文本的比对,再决定对变速语音进行调整或不调整,以最大化的清晰度完成对整个音频的变速调整;
将音频与视频分开进行调节并依据语音识别单元进行对齐,再决定对音频与视频进行调整或不调整,以最大化的清晰度完成对视频画面与音频的变速调整;
增设的打分单元根据变速语音和文字文本的清晰度进行打分,分数置信度作为容易理解程度的衡量指标,分数置信度越大,清晰度越大,容易理解的程度越大,分数置信度可以经过一些变换,例如除以文字长度,通常文字长度越长越不容易理解,容易理解程度越低,用以解决现有技术导致的缺陷。
本发明还提供一种获取音频最适播放速度的系统。
为解决上述技术问题本发明提供以下的技术方案:
第一方面,一种获取音频最适播放速度的方法,其中,包括以下步骤:
对音频进行处理得到多个分段语音;
对一个或多个或每个所述分段语音进行倍数的变速得到变速语音;
将所述变速语音进行语音识别后输出语音识别结果;
根据该语音识别结果调整所述变速语音的播放速度。
上述的一种获取音频最适播放速度的方法,其中,所述方法还包括获取音频。
上述的一种获取音频最适播放速度的方法,其中,对所述音频进行处理得到多个所述分段语音的方法为对所述音频进行分割,分割点为所述音频中每句话的结尾处。
上述的一种获取音频最适播放速度的方法,其中,对所述音频进行处理得到多个所述分段语音的方法为对所述音频进行分割,分割点为所述音频中说话人说话时的切换处。
上述的一种获取音频最适播放速度的方法,其中,所述分段语音变速的倍数为范围在0.5-1.5之间的一个或多个倍数值。
上述的一种获取音频最适播放速度的方法,其中,获取的音频为获取用户输入的一段音频,并将该一段音频存储到音频集合。
上述的一种获取音频最适播放速度的方法,其中,获取的音频为获取视频中的一段音频,并将该一段音频存储到音频集合。
上述的一种获取音频最适播放速度的方法,其中,所述语音识别过程包括以下步骤:
获取变速语音;
提取该变速语音中的文字文本;
将该变速语音与所述文字文本进行对齐;
将所述变速语音存储在语音识别结果中;
输出该语音识别结果。
第二方面,上述的一种获取音频最适播放速度的方法,其中,所述语音识别过程包括以下步骤:
获取变速语音;
提取该变速语音中的文字文本;
将该变速语音与所述文字文本进行对齐,不齐的部分生成调整倍速;
将所述调整倍速与所述变速语音存储在语音识别结果中;
输出该语音识别结果。
第三方面,上述的一种获取音频最适播放速度的方法,其中,所述语音识别过程包括以下步骤:
获取变速语音;
导入视频数据;
提取视频数据的画面数据;
将该变速语音与所述画面数据进行对齐;
将所述变速语音存储在语音识别结果中;
输出该语音识别结果。
第四方面,上述的一种获取音频最适播放速度的方法,其中,所述语音识别过程包括以下步骤:
获取变速语音;
导入视频数据;
提取视频数据的画面数据;
将该变速语音与所述画面数据进行对齐,不齐的部分生成调整倍速;
将所述调整倍速与所述变速语音存储在语音识别结果中;
输出该语音识别结果。
第五方面,上述的一种获取音频最适播放速度的方法,其中,所述语音识别过程包括以下步骤:
获取变速语音;
提取该变速语音中的文字文本;
导入视频数据;
提取视频数据的画面数据;
将该变速语音、所述文字文本、所述画面数据进行对齐;
将所述变速语音存储在语音识别结果中;
输出该语音识别结果。
第六方面,上述的一种获取音频最适播放速度的方法,其中,所述语音识别过程包括以下步骤:
获取变速语音;
提取该变速语音中的文字文本;
导入视频数据;
提取视频数据的画面数据;
将该变速语音、所述文字文本、所述画面数据进行对齐,不齐的部分生成调整倍速;
将所述调整倍速与所述变速语音存储在语音识别结果中;
输出该语音识别结果。
第七方面,上述的一种获取音频最适播放速度的方法,其中,还包括依据所述文字文本对所述变速语音进行打分并生成存储在语音识别结果中的分数置信度,根据该分数置信度的分数对所述调整倍速的倍数进行倍数调整。
上述的一种获取音频最适播放速度的方法,其中,所述文字文本打分的方法如下;
将所述变速语音与所述文字文本进行对比生成清晰度数据;
根据清晰度数据进行数值范围1-10内的打分;
将分数存储至所述分数置信度进行输出。
上述的一种获取音频最适播放速度的方法,其中,根据该语音识别结果调整所述变速语音播放速度的同时调整所述视频的播放速度。
第八方面,一种获取音频最适播放速度的系统,其中,包括:
音频处理单元,用于对音频进行处理,生成多个分段语音;
语音处理单元,用于分别对多个所述分段语音进行倍数的变速,生成变速语音;
语音识别单元,用于识别所述变速语音进行理解程度的分析输出得到语音识别结果;
语音调整单元,根据所述语音识别结果对所述变速语音进行调整。
一种获取音频最适播放速度的系统,其中,所述音频处理单元内置有语音分割单元,所述语音分割单元用于将所述音频分割成一段一段的语音。
一种获取音频最适播放速度的系统,其中, 还包括音频获取单元,用于获取所述音频并进行存储生成音频集合。
一种获取音频最适播放速度的系统,其中,所述音频获取单元通过无线与用户音频输入单元创建连接用于获取所述音频。
一种获取音频最适播放速度的系统,其中,所述语音识别单元内置有:
获取变速语音单元,用于接收所述变速语音;
提取文字文本单元,用于提取所述变速语音中的文字文本;
对齐单元,用于将所述变速语音与所述文字文本进行对齐,并传输至所述语音调整单元。
第九方面,一种获取音频最适播放速度的系统,其中,所述语音识别单元内置有:
获取变速语音单元,用于接收所述变速语音;
提取文字文本单元,用于提取所述变速语音中的文字文本;
对齐单元,用于将所述变速语音与所述文字文本进行对齐,不齐的部分生成存储至语音识别结果中的调整倍速,并传输至所述语音调整单元。
第十方面,一种获取音频最适播放速度的系统,其中,所述音频获取单元通过无线与视频输入单元创建连接用于获取所述音频与视频。
一种获取音频最适播放速度的系统,其中,所述语音识别单元内置有:
获取变速语音单元,用于接收所述变速语音;
提取画面数据单元,用于提取所述视频中的画面数据;
对齐单元,用于将所述变速语音与所述画面数据进行对齐,并传输至所述语音调整单元。
第十一方面,一种获取音频最适播放速度的系统,其中,所述音频获取单元通过无线与视频输入单元创建连接用于获取所述音频与视频。
一种获取音频最适播放速度的系统,其中,所述语音识别单元内置有:
获取变速语音单元,用于接收所述变速语音;
提取画面数据单元,用于提取所述视频中的画面数据;
对齐单元,用于将所述变速语音与所述画面数据进行对齐,不齐的部分生成存储至语音识别结果中的调整倍速,并传输至所述语音调整单元。
第十二方面,一种获取音频最适播放速度的系统,其中,所述语音识别单元内置有:
获取变速语音单元,用于接收所述变速语音;
提取文字文本单元,用于提取所述变速语音中的文字文本;
提取画面数据单元,用于提取所述视频中的画面数据;
对齐单元,用于将所述变速语音与所述文字文本、所述画面数据进行对齐,并传输至所述语音调整单元。
第十三方面,一种获取音频最适播放速度的系统,其中,所述语音识别单元内置有:
获取变速语音单元,用于接收所述变速语音;
提取文字文本单元,用于提取所述变速语音中的文字文本;
提取画面数据单元,用于提取所述视频中的画面数据;
对齐单元,用于将所述变速语音与所述文字文本、所述画面数据进行对齐,不齐的部分生成存储至语音识别结果中的调整倍速,并传输至所述语音调整单元。
第十四方面,一种获取音频最适播放速度的系统,其中,一种获取音频最适播放速度的系统,其中,所述语音调整单元内置有视频调整单元;
所述视频调整单元用于对所述视频进行变速调整。
第十五方面,一种获取音频最适播放速度的系统,其中,所述语音识别单元内置有打分单元;
所述打分单元用于对所述文字文本与所述变速语音进行对比后打分,生成分数置信度。
第十六方面,一种获取音频最适播放速度的存储器,所述存储器上存储有计算机程序与执行指令,其中,该计算机程序被处理器执行时实现上述中任一项所述的方法。
第十七方面,一种芯片,其中,所述芯片上安装有所述存储器,用于从芯片中调所述存储器中存储的所述计算机程序并执行,使得安装有所述芯片的设备执行上述中任一项所述的方法。
第十八方面,一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述的方法的步骤。
第十九方面,一种计算机程序产品,其中,包括计算机程序指令,该计算机程序指令使得计算机执行上述中任一项所述的方法。
依据上述本发明一种获取音频最适播放速度的方法与系统提供的技术方案具有以下技术效果:
将音频分割成多段的语音,可采取将音频中每一句进行分割形成多段语音或将音频中说话人自己说话时的间隔分割成多段语音,再对每段语音进行单独的倍速调整,使得能够根据每段语音不同的速度进行调节,以达到最清晰的目的;
通过新增的语音识别单元对变速语音进行与文字文本的对齐,再决定对变速语音进行调整倍速或不调整倍速,不齐的部分生成调整倍速,以最大化的清晰度完成对整个音频的变速调整;
将音频与视频分开进行调节并依据语音识别单元进行对齐,再决定对音频与视频进行调整倍速或不调整倍速,不齐的部分生成调整倍速,以最大化的清晰度完成对视频画面与音频的变速调整;
增设的打分单元根据变速语音和文字文本的清晰度进行打分,生成分数置信度,分数置信度作为容易理解程度的衡量指标,分数置信度越大,清晰度越大,容易理解的程度越大,分数置信度可以经过一些变换,例如除以文字长度,通常文字长度越长越不容易理解,容易理解程度越低。
附图说明
图1为本发明一种获取音频最适播放速度的方法的流程示意图;
图2为本发明一种获取音频最适播放速度的方法中实施例1的流程示意图;
图3为本发明一种获取音频最适播放速度的方法中实施例2的流程示意图;
图4为本发明一种获取音频最适播放速度的方法中实施例3的流程示意图;
图5为本发明一种获取音频最适播放速度的方法中实施例4的流程示意图;
图6为本发明一种获取音频最适播放速度的方法中实施例5的流程示意图;
图7为本发明一种获取音频最适播放速度的方法中实施例6的流程示意图;
图8为本发明一种获取音频最适播放速度的系统结构示意图。
其中,附图标记如下:
音频处理单元101、语音处理单元102、语音识别单元103、语音调整单元104。
具体实施方式
为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解,下结合具体图示,进一步阐述本发明。
须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
本方案发明人发现,在现有技术中,在进行音频或视频的播放时,无法使得音频或视频进行等倍速的调节,为解决上述技术问题,发明人构思了利用语音识别模块得到音频的最适播放速度的技术方案,本发明实施例提供如下方案:
本发明的提供一种获取音频最适播放速度的方法与系统,目的是将音频分割成多段的语音,可采取将音频中每一句进行分割形成多段语音或将音频中说话人自己说话时的间隔分割成多段语音,再对每段语音进行单独的倍速调整,使得能够根据每段语音不同的速度进行调节,以达到最清晰的目的;
通过新增的语音识别单元对变速语音进行与文字文本的比对,再决定对变速语音进行调整或不调整,以最大化的清晰度完成对整个音频的变速调整;
将音频与视频分开进行调节并依据语音识别单元进行对齐,再决定对音频与视频进行调整或不调整,以最大化的清晰度完成对视频画面与音频的变速调整;
增设的打分单元根据变速语音和文字文本的清晰度进行打分,生成分数置信度,分数置信度作为容易理解程度的衡量指标,分数置信度越大,清晰度越大,容易理解的程度越大,分数置信度可以经过一些变换,例如除以文字长度,通常文字长度越长越不容易理解,容易理解程度越低;
容易理解程度的分数(即分数置信度)满足某种预先设置的条件,例如:分数置信度大于某一个数值前提下的最快速度,这种条件可以起到的效果是快速播放容易理解的部分,慢速播放不容易理解的部分,即达到最适播放速度。
第一方面,如图1所示,一种获取音频最适播放速度的方法,其中,包括以下步骤:
对音频进行处理得到多个分段语音;
对一个或多个或每个分段语音进行倍数的变速得到变速语音;
将变速语音进行语音识别后输出语音识别结果;
根据该语音识别结果调整变速语音的播放速度。
本实施例提供的一种获取音频最适播放速度的方法,其中,方法还包括获取音频。
本实施例提供的一种获取音频最适播放速度的方法,其中,对音频进行处理得到多个分段语音的方法为对音频进行分割,分割点为音频中每句话的结尾处。
本实施例提供的一种获取音频最适播放速度的方法,其中,对音频进行处理得到多个分段语音的方法为对音频进行分割,分割点为音频中说话人说话时的切换处。
本实施例提供的一种获取音频最适播放速度的方法,其中,分段语音变速的倍数为范围在0.5-1.5之间的一个或多个倍数值,根据说话人的语速,快的语音需要降低速度才能听清楚,慢的语音增加速度也能听清楚,为了听着能够容易理解会将快的语音变慢,慢的语音变快。
本实施例提供的一种获取音频最适播放速度的方法,其中,获取的音频为获取用户输入的一段音频,并将该一段音频存储到音频集合。
本实施例提供的一种获取音频最适播放速度的方法,其中,获取的音频为获取视频中的一段音频,并将该一段音频存储到音频集合。
本实施例提供的一种获取音频最适播放速度的方法,其中,语音识别过程包括以下步骤:
获取变速语音;
提取该变速语音中的文字文本;
将该变速语音与文字文本进行对齐;
将变速语音存储在语音识别结果中;
输出该语音识别结果。如图2所示,依据第一方面包括一具体实施例1:
1)获取音频,对音频进行分割处理得到多个分段语音,其中分割点可以为音频中每句话的结尾处或音频中说话人说话时的切换处;
2)针对每个所述分段语音进行0.5-1.5倍数的变速得到变速语音,根据需要可以按照某一些预设值,比如0.5-1.5中每隔0.1取一个倍数值,得到多种变速情况下的多个变速语音;
3)获取变速语音,提取该变速语音中的文字文本;
4)将变速语音与文字文本进行对齐:
5)将变速语音存储在语音识别结果中,并输出语音识别结果;
6)根据该语音识别结果调整所述变速语音的播放速度。
第二方面,本实施例提供的一种获取音频最适播放速度的方法,其中,语音识别过程包括以下步骤:
获取变速语音;
提取该变速语音中的文字文本;
将该变速语音与文字文本进行对齐,不齐的部分生成调整倍速;
将调整倍速与变速语音存储在语音识别结果中;
输出该语音识别结果。如图3所示,依据第二方面包括一具体实施例2:
1)获取音频,对音频进行分割处理得到多个分段语音,其中分割点可以为音频中每句话的结尾处或音频中说话人说话时的切换处;
2)针对每个所述分段语音进行0.5-1.5倍数的变速得到变速语音,根据需要可以按照某一些预设值,比如0.5-1.5中每隔0.1取一个倍数值,得到多种变速情况下的多个变速语音;
3)获取变速语音,提取该变速语音中的文字文本;
4)将变速语音与文字文本进行对齐,不齐的部分生成调整倍速:
5)将调整倍速与变速语音存储在语音识别结果中,并输出语音识别结果;
6)根据该语音识别结果调整所述变速语音的播放速度。
第三方面,本实施例提供的一种获取音频最适播放速度的方法,其中,语音识别过程包括以下步骤:
获取变速语音;
导入视频数据;
提取视频数据的画面数据;
将该变速语音与画面数据进行对齐;
将变速语音存储在语音识别结果中;
输出该语音识别结果。
如图4所示,依据第三方面包括一具体实施例3:
1)获取音频,对音频进行分割处理得到多个分段语音,其中分割点可以为音频中每句话的结尾处或音频中说话人说话时的切换处;
2)针对每个所述分段语音进行0.5-1.5倍数的变速得到变速语音,根据需要可以按照某一些预设值,比如0.5-1.5中每隔0.1取一个倍数值,得到多种变速情况下的多个变速语音;
3)获取变速语音;
4)获取视频数据,提取视频数据的画面数据;
5)将变速语音与画面数据进行对齐;
6)将变速语音存储在语音识别结果中,并输出语音识别结果;
7)根据该语音识别结果调整所述变速语音的播放速度的同时调节视频的播放速度。
第四方面,本实施例提供的一种获取音频最适播放速度的方法,其中,语音识别过程包括以下步骤:
获取变速语音;
导入视频数据;
提取视频数据的画面数据;
将该变速语音与画面数据进行对齐,不齐的部分生成调整倍速;
将调整倍速与变速语音存储在语音识别结果中;
输出该语音识别结果。
如图5所示,依据第四方面包括一具体实施例4:
1)获取音频,对音频进行分割处理得到多个分段语音,其中分割点可以为音频中每句话的结尾处或音频中说话人说话时的切换处;
2)针对每个所述分段语音进行0.5-1.5倍数的变速得到变速语音,根据需要可以按照某一些预设值,比如0.5-1.5中每隔0.1取一个倍数值,得到多种变速情况下的多个变速语音;
3)获取变速语音;
4)获取视频数据,提取视频数据的画面数据;
5)将变速语音与画面数据进行对齐,不齐的部分生成调整倍速;
6)将调整倍速与变速语音存储在语音识别结果中,并输出语音识别结果;
7)根据该语音识别结果调整所述变速语音的播放速度的同时调节视频的播放速度。
第五方面,本实施例提供的一种获取音频最适播放速度的方法,其中,语音识别过程包括以下步骤:
获取变速语音;
提取该变速语音中的文字文本;
导入视频数据;
提取视频数据的画面数据;
将该变速语音、文字文本、画面数据进行对齐;
变速语音存储在语音识别结果中;
输出该语音识别结果。
如图6所示,依据第五方面包括一具体实施例5:
1)获取音频,对音频进行分割处理得到多个分段语音,其中分割点可以为音频中每句话的结尾处或音频中说话人说话时的切换处;
2)针对每个所述分段语音进行0.5-1.5倍数的变速得到变速语音,根据需要可以按照某一些预设值,比如0.5-1.5中每隔0.1取一个倍数值,得到多种变速情况下的多个变速语音;
3)获取变速语音,提取该变速语音中的文字文本;
4)获取视频数据,提取视频数据的画面数据;
5)将变速语音与文字文本、画面数据进行对齐;
6)将变速语音存储在语音识别结果中,并输出语音识别结果;
7)根据该语音识别结果调整所述变速语音的播放速度的同时调节视频的播放速度。
第六方面,本实施例提供的一种获取音频最适播放速度的方法,其中,语音识别过程包括以下步骤:
获取变速语音;
提取该变速语音中的文字文本;
导入视频数据;
提取视频数据的画面数据;
将该变速语音、文字文本、画面数据进行对齐,不齐的部分生成调整倍速;
将调整倍速与变速语音存储在语音识别结果中;
输出该语音识别结果。
如图7所示,依据第六方面包括一具体实施例6:
1)获取音频,对音频进行分割处理得到多个分段语音,其中分割点可以为音频中每句话的结尾处或音频中说话人说话时的切换处;
2)针对每个所述分段语音进行0.5-1.5倍数的变速得到变速语音,根据需要可以按照某一些预设值,比如0.5-1.5中每隔0.1取一个倍数值,得到多种变速情况下的多个变速语音;
3)获取变速语音,提取该变速语音中的文字文本;
4)获取视频数据,提取视频数据的画面数据;
5)将变速语音与文字文本、画面数据进行对齐,不齐的部分生成调整倍速;
6)将调整倍速与变速语音存储在语音识别结果中,并输出语音识别结果;
7)根据该语音识别结果调整所述变速语音的播放速度的同时调节视频的播放速度。
第七方面,本实施例提供的一种获取音频最适播放速度的方法,其中,还包括依据文字文本对变速语音进行打分并生成存储在语音识别结果中的分数置信度,根据该分数置信度的分数对调整倍速的倍数进行倍数调整。
本实施例提供的一种获取音频最适播放速度的方法,其中,文字文本打分的方法如下;
将变速语音与文字文本进行对比生成清晰度数据;
根据清晰度数据进行数值范围1-10内的打分,分数越高,清晰度越高,越容易理解;
将分数存储至分数置信度进行输出。
本实施例提供的一种获取音频最适播放速度的方法,其中,根据该语音识别结果调整变速语音播放速度的同时调整视频的播放速度。
第八方面,如图8所示,一种获取音频最适播放速度的系统,其中,包括:
音频处理单元101,用于对音频进行处理,生成多个分段语音;
语音处理单元102,用于分别对多个分段语音进行倍数的变速,生成变速语音;
语音识别单元103,用于识别变速语音进行理解程度的分析输出得到语音识别结果;
语音调整单元104,根据语音识别结果对变速语音进行调整。
本实施例提供的一种获取音频最适播放速度的系统,其中,音频处理单元101内置有语音分割单元,语音分割单元用于将音频分割成一段一段的语音。
本实施例提供的一种获取音频最适播放速度的系统,其中,还包括音频获取单元,用于获取音频并进行存储生成音频集合。
本实施例提供的一种获取音频最适播放速度的系统,其中,音频获取单元通过无线与用户音频输入单元创建连接用于获取音频。
本实施例提供的一种获取音频最适播放速度的系统,其中,语音识别单元103内置有:
获取变速语音单元,用于接收变速语音;
提取文字文本单元,用于提取变速语音中的文字文本;
对齐单元,用于将变速语音与文字文本进行对齐,并传输至语音调整单元104。
第九方面,本实施例提供的一种获取音频最适播放速度的系统,其中,语音识别单元103内置有:
获取变速语音单元,用于接收变速语音;
提取文字文本单元,用于提取变速语音中的文字文本;
对齐单元,用于将变速语音与文字文本进行对齐,不齐的部分生成存储至语音识别结果中的调整倍速,并传输至语音调整单元104。
第十方面,本实施例提供的一种获取音频最适播放速度的系统,其中,音频获取单元通过无线与视频输入单元创建连接用于获取音频与视频。
本实施例提供的一种获取音频最适播放速度的系统,其中,语音识别单元103内置有:
获取变速语音单元,用于接收变速语音;
提取画面数据单元,用于提取视频中的画面数据;
对齐单元,用于将变速语音与画面数据进行对齐,并传输至语音调整单元104。
第十一方面,本实施例提供的一种获取音频最适播放速度的系统,其中,音频获取单元通过无线与视频输入单元创建连接用于获取音频与视频。
本实施例提供的一种获取音频最适播放速度的系统,其中,语音识别单元103内置有:
获取变速语音单元,用于接收变速语音;
提取画面数据单元,用于提取视频中的画面数据;
对齐单元,用于将变速语音与画面数据进行对齐,不齐的部分生成存储至语音识别结果中的调整倍速,并传输至语音调整单元104。
第十二方面,本实施例提供的一种获取音频最适播放速度的系统,其中,语音识别单元103内置有:
获取变速语音单元,用于接收变速语音;
提取文字文本单元,用于提取变速语音中的文字文本;
提取画面数据单元,用于提取视频中的画面数据;
对齐单元,用于将变速语音与文字文本、画面数据进行对齐,并传输至语音调整单元104。
第十三方面,本实施例提供的一种获取音频最适播放速度的系统,其中,语音识别单元103内置有:
获取变速语音单元,用于接收变速语音;
提取文字文本单元,用于提取变速语音中的文字文本;
提取画面数据单元,用于提取视频中的画面数据;
对齐单元,用于将变速语音与文字文本、画面数据进行对齐,不齐的部分生成存储至语音识别结果中的调整倍速,并传输至语音调整单元104。
第十四方面,本实施例提供的一种获取音频最适播放速度的系统,其中,一种获取音频最适播放速度的系统,其特征在于,语音调整单元104内置有视频调整单元;
视频调整单元用于对视频进行变速调整。
第十五方面,本实施例提供的一种获取音频最适播放速度的系统,其中,语音识别单元103内置有打分单元;
打分单元用于对文字文本与变速语音进行对比后打分,生成分数置信度。
第十六方面,一种获取音频最适播放速度的存储器,存储器上存储有计算机程序与执行指令,其特征在于,该计算机程序被处理器执行时实现上述中任一项的方法。
第十七方面,一种芯片,其中,芯片上安装有存储器,用于从芯片中调存储器中存储的计算机程序并执行,使得安装有芯片的设备执行上述中任一项的方法。
第十八方面,一种计算机可读存储介质,其中,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述中任一项的方法的步骤。
第十九方面,一种计算机程序产品,其中,包括计算机程序指令,该计算机程序指令使得计算机执行上述中任一项的方法。
例如,存储器可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等;
处理器可以是中央处理器(Central Processing Unit,CPU)等,或者是图像处理器(Graphic Processing Unit,GPU)存储器可以存储可执行指令;
处理器可以执行在存储器中存储的执行指令,从而实现本文描述的各个过程。
可以理解,本实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;
其中,非易失性存储器可以是ROM (Read-OnlyMemory,只读存储器)、PROM(ProgrammableROM,可编程只读存储器)、EPROM (ErasablePROM,可擦除可编程只读存储器)、EEPROM (ElectricallyEPROM,电可擦除可编程只读存储器)或闪存。
易失性存储器可以是RAM (RandomAccessMemory,随机存取存储器),其用作外部高速缓存;
通过示例性但不是限制性说明,许多形式的RAM可用,例如SRAM (StaticRAM,静态随机存取存储器)、DRAM (DynamicRAM,动态随机存取存储器)、SDRAM (SynchronousDRAM,同步动态随机存取存储器)、DDRSDRAM (DoubleDataRate SDRAM,双倍数据速率同步动态随机存取存储器)、ESDRAM (Enhanced SDRAM,增强型同步动态随机存取存储器)、SLDRAM(SynchlinkDRAM,同步连接动态随机存取存储器)和DRRAM (DirectRambusRAM,直接内存总线随机存取存储器)。本文描述的存储器205旨在包括但不限于这些和任意其它适合类型的存储器205。
在一些实施方式中,存储器存储了如下的元素,升级包、可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序;
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
应用程序,包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。
本领域技术人员可以明白的是,结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现;
这些功能是以硬件还是软件方式来实现,取决于技术方案的特定应用和设计约束条件;
本领域技术人员可以针对每个特定的应用,使用不同的方式来实现所描述的功能,但是这种实现并不应认为超出本申请的范围。
在本申请实施例中,所公开的系统、装置和方法可以通过其它方式来实现;
例如,单元的划分仅仅为一种逻辑功能划分,在实际实现时还可以有另外的划分方式;
例如,多个单元或组件可以进行组合或者可以集成到另一个系统中;
另外,在本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是单独的物理存在等等。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在机器可读存储介质中;
因此,本申请的技术方案可以以软件产品的形式来体现,该软件产品可以存储在机器可读存储介质中,其可以包括若干指令用以使得电子设备执行本申请实施例所描述的技术方案的全部或部分过程;
上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。
综上,本发明的一种获取音频最适播放速度的方法与系统,将音频分割成多段的语音,可采取将音频中每一句进行分割形成多段语音或将音频中说话人自己说话时的间隔分割成多段语音,再对每段语音进行单独的倍速调整,使得能够根据每段语音不同的速度进行调节,以达到最清晰的目的;
通过新增的语音识别单元对变速语音进行与文字文本的比对,再决定对变速语音进行调整或不调整,以最大化的清晰度完成对整个音频的变速调整;
将音频与视频分开进行调节并依据语音识别单元进行对齐,再决定对音频与视频进行调整或不调整,以最大化的清晰度完成对视频画面与音频的变速调整;
增设的打分单元根据变速语音和文字文本的清晰度进行打分,生成分数置信度,分数置信度作为容易理解程度的衡量指标,分数置信度越大,清晰度越大,容易理解的程度越大,分数置信度可以经过一些变换,例如除以文字长度,通常文字长度越长越不容易理解,容易理解程度越低。
以上对发明的具体实施例进行了描述。需要理解的是,发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换,这并不影响发明的实质内容。
Claims (10)
1.一种获取音频最适播放速度的方法,其特征在于,包括以下步骤:
对音频进行处理得到多个分段语音;
对一个或多个所述分段语音进行倍数的变速得到变速语音;
将所述变速语音进行语音识别后输出语音识别结果;
根据该语音识别结果调整所述变速语音的播放速度。
2.如权利要求1所述的一种获取音频最适播放速度的方法,其特征在于,获取的音频为获取用户输入的一段音频,并将该一段音频存储到音频集合。
3.如权利要求1所述的一种获取音频最适播放速度的方法,其特征在于,获取的音频为获取视频中的一段音频,并将该一段音频存储到音频集合。
4.一种获取音频最适播放速度的系统,其特征在于,包括:
音频处理单元,用于对音频进行处理,生成多个分段语音;
语音处理单元,用于分别对多个所述分段语音进行倍数的变速,生成变速语音;
语音识别单元,用于识别所述变速语音进行理解程度的分析输出得到语音识别结果;
语音调整单元,根据所述语音识别结果对所述变速语音进行调整。
5.如权利要求4所述的一种获取音频最适播放速度的系统,其特征在于,所述音频处理单元内置有语音分割单元,所述语音分割单元用于将所述音频分割成一段一段的语音。
6.如权利要求4所述的一种获取音频最适播放速度的系统,其特征在于,所述语音识别单元内置有:
获取变速语音单元,用于接收所述变速语音;
提取文字文本单元,用于提取所述变速语音中的文字文本;
对齐单元,用于将所述变速语音与所述文字文本进行对齐,并传输至所述语音调整单元。
7.一种获取音频最适播放速度的存储器,所述存储器上存储有计算机程序与执行指令,其特征在于,该计算机程序被处理器执行时实现上述权利要求1-3中任一项所述的方法。
8.一种芯片,其特征在于,所述芯片上安装有所述存储器,用于从芯片中调所述存储器中存储的所述计算机程序并执行,使得安装有所述芯片的设备执行如权利要求1-3中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的方法的步骤。
10.一种计算机程序产品,其特征在于,包括计算机程序指令,该计算机程序指令使得计算机执行如权利要求1-3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010249215.2A CN111356010A (zh) | 2020-04-01 | 2020-04-01 | 一种获取音频最适播放速度的方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010249215.2A CN111356010A (zh) | 2020-04-01 | 2020-04-01 | 一种获取音频最适播放速度的方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111356010A true CN111356010A (zh) | 2020-06-30 |
Family
ID=71197632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010249215.2A Pending CN111356010A (zh) | 2020-04-01 | 2020-04-01 | 一种获取音频最适播放速度的方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111356010A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112423019A (zh) * | 2020-11-17 | 2021-02-26 | 北京达佳互联信息技术有限公司 | 调整音频播放速度的方法、装置、电子设备及存储介质 |
CN112511406A (zh) * | 2020-10-30 | 2021-03-16 | 国网山东省电力公司泰安供电公司 | 即时通讯软件的语音播放方法和系统 |
CN112562721A (zh) * | 2020-11-30 | 2021-03-26 | 清华珠三角研究院 | 一种视频翻译方法、系统、装置及存储介质 |
CN112599148A (zh) * | 2020-12-31 | 2021-04-02 | 北京声智科技有限公司 | 一种语音识别方法及装置 |
US20220406293A1 (en) * | 2021-06-22 | 2022-12-22 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling thereof |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101427314A (zh) * | 2006-04-25 | 2009-05-06 | 英特尔公司 | 用于自动调整音频数据的播放速度的方法和装置 |
CN103474081A (zh) * | 2012-06-05 | 2013-12-25 | 广达电脑股份有限公司 | 文字显示方法与处理装置以及计算机程序产品 |
CN107193841A (zh) * | 2016-03-15 | 2017-09-22 | 北京三星通信技术研究有限公司 | 媒体文件加速播放、传输及存储的方法和装置 |
CN110177298A (zh) * | 2019-05-27 | 2019-08-27 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种基于语音的视频倍速播放方法及系统 |
CN110740275A (zh) * | 2019-10-30 | 2020-01-31 | 中央电视台 | 一种非线性编辑系统 |
-
2020
- 2020-04-01 CN CN202010249215.2A patent/CN111356010A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101427314A (zh) * | 2006-04-25 | 2009-05-06 | 英特尔公司 | 用于自动调整音频数据的播放速度的方法和装置 |
CN103474081A (zh) * | 2012-06-05 | 2013-12-25 | 广达电脑股份有限公司 | 文字显示方法与处理装置以及计算机程序产品 |
CN107193841A (zh) * | 2016-03-15 | 2017-09-22 | 北京三星通信技术研究有限公司 | 媒体文件加速播放、传输及存储的方法和装置 |
CN110177298A (zh) * | 2019-05-27 | 2019-08-27 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种基于语音的视频倍速播放方法及系统 |
CN110740275A (zh) * | 2019-10-30 | 2020-01-31 | 中央电视台 | 一种非线性编辑系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112511406A (zh) * | 2020-10-30 | 2021-03-16 | 国网山东省电力公司泰安供电公司 | 即时通讯软件的语音播放方法和系统 |
CN112423019A (zh) * | 2020-11-17 | 2021-02-26 | 北京达佳互联信息技术有限公司 | 调整音频播放速度的方法、装置、电子设备及存储介质 |
CN112423019B (zh) * | 2020-11-17 | 2022-11-22 | 北京达佳互联信息技术有限公司 | 调整音频播放速度的方法、装置、电子设备及存储介质 |
CN112562721A (zh) * | 2020-11-30 | 2021-03-26 | 清华珠三角研究院 | 一种视频翻译方法、系统、装置及存储介质 |
CN112562721B (zh) * | 2020-11-30 | 2024-04-16 | 清华珠三角研究院 | 一种视频翻译方法、系统、装置及存储介质 |
CN112599148A (zh) * | 2020-12-31 | 2021-04-02 | 北京声智科技有限公司 | 一种语音识别方法及装置 |
US20220406293A1 (en) * | 2021-06-22 | 2022-12-22 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling thereof |
US11848004B2 (en) * | 2021-06-22 | 2023-12-19 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111356010A (zh) | 一种获取音频最适播放速度的方法与系统 | |
TWI300214B (en) | Method for robust voice recognition by analyzing redundant features of source signal | |
CN110136715B (zh) | 语音识别方法和装置 | |
CN109859298B (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
CN104778216B (zh) | 一种预设风格歌曲处理的方法及装置 | |
CN113035199B (zh) | 音频处理方法、装置、设备及可读存储介质 | |
CN111128116B (zh) | 一种语音处理方法、装置、计算设备及存储介质 | |
CN110428811B (zh) | 一种数据处理方法、装置及电子设备 | |
WO2023151424A1 (zh) | 视频的音画面播放速率调整方法及装置 | |
CN113724718B (zh) | 目标音频的输出方法及装置、系统 | |
JP2023059937A (ja) | データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム | |
CN113436609A (zh) | 语音转换模型及其训练方法、语音转换方法及系统 | |
CN112580669B (zh) | 一种对语音信息的训练方法及装置 | |
CN110544472B (zh) | 提升使用cnn网络结构的语音任务的性能的方法 | |
CN113327576A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113012683A (zh) | 语音识别方法及装置、设备、计算机可读存储介质 | |
CN107910005A (zh) | 交互文本的目标业务定位方法及装置 | |
CN106653003A (zh) | 语音识别方法及装置 | |
CN111354346B (zh) | 一种语音识别数据扩充方法与系统 | |
US20230059882A1 (en) | Speech synthesis method and apparatus, device and computer storage medium | |
CN113724690B (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
CN114842828A (zh) | 一种合成语音的音量控制方法及装置 | |
CN114420136A (zh) | 一种声纹识别模型训练的方法、装置以及存储介质 | |
CN113889086A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 | |
CN113823318A (zh) | 一种基于人工智能的倍率确定方法、音量调节方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200630 |
|
RJ01 | Rejection of invention patent application after publication |