CN113542863A - 一种声音处理方法、存储介质以及智能电视 - Google Patents
一种声音处理方法、存储介质以及智能电视 Download PDFInfo
- Publication number
- CN113542863A CN113542863A CN202010288901.0A CN202010288901A CN113542863A CN 113542863 A CN113542863 A CN 113542863A CN 202010288901 A CN202010288901 A CN 202010288901A CN 113542863 A CN113542863 A CN 113542863A
- Authority
- CN
- China
- Prior art keywords
- frame
- signal
- voice
- energy
- mutation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 34
- 230000005236 sound signal Effects 0.000 claims abstract description 147
- 230000035772 mutation Effects 0.000 claims abstract description 65
- 230000008859 change Effects 0.000 claims abstract description 41
- 238000009499 grossing Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 10
- 230000037433 frameshift Effects 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 38
- 230000008569 process Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005195 poor health Effects 0.000 description 1
- 230000003938 response to stress Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种声音处理方法、存储介质以及智能电视,所述方法获取待处理的音频信号,并将计算所述音频信号中每帧信号帧的能量以及过零率;根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧;对所述语音突变帧进行平滑处理,以得到处理后的音频信息。本发明通过音频信号中每帧信号帧的能量以及过零率确定该音频信号中的语音突变帧,并对语音突变帧的音量进行平滑,降低了进入语音突变帧产生的音量大幅度,从而避免了因音量瞬间大幅度变化给人们代理人的不适感,从而给用户的使用带来方便。
Description
技术领域
本发明涉及音频技术领域,特别涉及一种声音处理方法、存储介质以及智能电视。
背景技术
随着智能电视的快速发展,智能电视的智能化程度也越来越高,使得智能电视可以各家庭成员的观影需求。智能电视普遍装配于家庭的公共区域,在通过智能电视观影时,各家庭成员均可以听到智能电视播放的视频声音,并且在观看视频的过程中会存在声音跳变的情况,这种情况可以会使得小朋友或者身体欠佳的老年人产生应激反应(例如,引起小孩的害怕情绪,或者老年人心脏难受等),进而给用户带来困扰。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种声音处理方法、存储介质以及智能电视。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种声音处理方法,所述方法包括:
获取待处理的音频信号,并将计算所述音频信号中每帧信号帧的能量以及过零率;
根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧,其中,所述语音突变帧的能量与参考帧信号的能量差异值大于预设能量阈值,所述参考帧信号为按时间顺序位于该语音突变帧前且与语音突变帧间隔预设帧的信号帧;
对所述语音突变帧进行平滑处理,以得到处理后的音频信息。
所述声音处理方法,其中,所述音频信号为处于播放状态的视频的待播放音频信号。
所述声音处理方法,其中,所述获取待处理的音频信号,并将计算所述音频信号中每帧信号的能量具体包括:
获取待处理的音频信号,并按照预设帧长和预设帧移对所述音频信号进行分帧处理,以得到若干信号帧;
对于若干信号帧中的每帧信号帧,计算该信号帧的能量及过零率。
所述声音处理方法,其中,所述根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧具体包括:
根据计算得到的各信号帧的能量以及过零率,确定所述音频信号中的语音起始帧以及语音结束帧;
根据获取到的各语音起始帧以及各语音结束帧,确定所述音频信号中的连续语音段,其中,所述连续语音段包括的干扰信号帧的数量满足预设条件,并且干扰信号帧的能量小于预设的能量下限值;
根据获取到的各连续语音段,确定所述音频信号中的语音突变帧。
所述声音处理方法,其中,所述根据获取到的各连续语音段,确定所述音频信号中的语音突变帧具体包括:
对于每个连续语音段中每帧信号帧,计算该帧信号帧与参考信号帧的能量差;若该能量差大于或等于所述预设能量阈值,则确定该信号帧为语音突变帧,其中,所述参考信号帧为按时间顺序位于该信号帧前,且与该信号帧间隔预设帧的信号帧。
所述声音处理方法,其中,所述获取到各连续语音段,确定所述音频信号中的语音突变帧包括:
对于每个连续语音段的起始信号帧,将该起始信号帧的能量与预设能量阈值进行比较;
若该起始信号帧的能量大于或者等于预设能量阈值,则确定该起始信号帧为语音突变帧。
所述声音处理方法,其中,所述对所述语音突变帧进行平滑处理,以得到处理后的音频信息之前,所述方法包括:
对于每个连续语音段,将该连续语音段中的各干扰信号帧均设置为静音。
所述声音处理方法,其中,所述对所述语音突变帧进行平滑处理,以得到处理后的音频信息具体包括:
对于每个语音突变帧,确定该语音突变帧对应的若干对照信号帧,并根据该语音突变帧以及所确定到的若干对照信号帧,确定该语音突变帧对应的平滑系数,其中,所述对照信号帧与所述语音突变帧为连续信号帧;
基于各语音突变帧各自分别对应的平滑系数分别对各该语音突变帧进行平滑处理,以得到处理后的音频信息。
所述声音处理方法,其中,当按照时间顺序语音突变帧前具有至少一帧信号帧时;所述若干对照信号帧中存在若干前置信号帧,前置信号帧的数量小于对照信号帧的数量,并且各前置信号帧按照时间顺序位于所述语音突变帧前。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的声音处理方法、存储介质以及智能电视中的步骤。
一种智能电视,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的声音处理方法、存储介质以及智能电视中的步骤。
有益效果:与现有技术相比,本发明提供了一种声音处理方法、存储介质以及智能电视,所述方法获取待处理的音频信号,并将计算所述音频信号中每帧信号帧的能量以及过零率;根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧;对所述语音突变帧进行平滑处理,以得到处理后的音频信息。本发明通过音频信号中每帧信号帧的能量以及过零率确定该音频信号中的语音突变帧,并对语音突变帧的音量进行平滑,降低了进入语音突变帧产生的音量大幅度,从而避免了因音量瞬间大幅度变化给人们代理人的不适感,从而给用户的使用带来方便。
附图说明
图1为本发明提供的声音处理方法的流程图。
图2为本发明提供的智能电视的结构原理图。
具体实施方式
本发明提供一种声音处理方法、存储介质以及智能电视,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本实施例提供了一种声音处理方法,该方法可以应用的电子设备,所述电子设备可以以各种形式来实现。例如,手机、平板电脑、掌上电脑、个人数字助理(PersonalDigital Assistant,PDA)等。另外,该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该电子设备至少包括处理器和存储介质。当然,所述该方法也可以应用服务器,或者智能电视与服务器的交互场景。例如,智能电视获取到待处理的音频信号,并将该音频信号发送至服务器,所述服务器响应所述智能电视发送的音频信号,并获取待处理的音频信号,并将计算所述音频信号中每帧信号帧的能量以及过零率;根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧;对所述语音突变帧进行平滑处理,以得到处理后的音频信号,最后将处理后的音频信号反馈给智能电视。
本实施提供了一种声音处理方法,如图1所示,所述方法可以包括以下步骤:
S10、获取待处理的音频信号,并将计算所述音频信号中每帧信号帧的能量以及过零率。
具体地,所述音频信号可以是外部设备的音频信号;可以是通过网络(如,百度等)下载的;可以是智能电视自身存储的音频信号;可以是智能电视通过其配置的音频拾取器(例如,拾音器等)接收到;还可以是通过视频数据携带的音频信号。
在本实施例的一个实现方式中,所述音频信号为视频数据携带中的部分音频信号,所述音频信号为视频数据的待播放音频信号(即尚未播放的音频信号),并且该音频信号对应的起始播放时刻晚于为该音频信号对应的获取时间。可以理解的是,当获取音频信号时,在所述视频数据对应的目标音频信号中以该获取时间后的一时刻作为起始时刻,按照时间顺序向后选取预设时长的音频信号段,并将该音频信号段作为所述音频信号。例如,当智能电视播放视频时,对于将视频的起始播放时刻作为获取时刻,那么以该起始播放作为音频信号的起始播放时刻,并按照时间顺序向后截取预设时长(比如3s)的音频信号段,则该预设时长(比如3s)的音频信号段为获取到的音频信号。当然,在实际应用中,所述预设时长可以根据实际需要进行调整,例如,2s,4s等。
此外,在视频播放过程中,可以将该声音处理方法作为声音处理功能,并每间隔预设时间执行一次该声音处理功能,以每间隔预设时间对视频中的音频信号段进行平滑处理,这样在视频播放过程中,视频播放的声音始终保持平滑状态。其中,所述间隔预设时间可以小于所述音频信号的时长,这样可以每次获取到的音频信号均有重叠部分,使得各音频信号的结束点以及起始点均可以被平滑,提高了视频播放过程音频信号的平滑效果。例如,预设时长为3s,间隔预设时间为1.5s。
进一步,所述信号帧为所述音频信号中的一段音频信号,所述音频信号为包括多个信号帧,所述多个信号帧可以通过对音频信号进行分帧处理得到。相应的,所述获取待处理的音频信号,并将计算所述音频信号中每帧信号的能量可以为:
S11、获取待处理的音频信号,并按照预设帧长和预设帧移对所述音频信号进行分帧处理,以得到若干信号帧;
S12、对于若干信号帧中的每帧信号帧,计算该信号帧的能量及过零率。
具体地,所述预设帧长指的是信号帧的信号时长,所述预设帧长可以为预先设定,例如,所述预设帧长可以为20-50ms中的值,如,20ms、25ms、40ms以及50ms等。此外,在实际应用中,所述预设帧长可以根据音频信号的采样率确定,所述采用率为定义了每秒从连续信号中提取并组成离散信号的采样点,例如,在采样率为1kHz情况表,每秒可以获取得到1k各采样点。其中,所述采用率与预设帧长的关系可以为:预设帧长随采样率的增大而增大;反之,预设帧长随采样率的减小而减小。例如,当采样率为8000Hz时,预设帧长可以为32ms;当采样率为22050Hz时,预设帧长可以为20ms等。当然,值得说明的,所述预设帧长随采样率的增大而增大可以包括当采样率增大,而预设帧长保持不变的情况,例如,当采样率为8000Hz时,预设帧长可以为32ms;而当采样率为16000Hz时,预设帧长仍为32ms。
进一步,预设帧移指的是相邻两帧信号帧中按照时间顺序位于前的第一信号帧的起始时间与位于后的第二信号帧的起始时间的时间间隔,例如,信号帧A和信号帧B为相邻信号帧,那么信号帧A的起始时间A与信号帧的起始时间B之间的间隔时间为预设帧移。此外,所述预设帧移小于所述预设帧长,以使得相邻两帧信号帧之间可以有部分重叠,这样在对音频信号进行平滑时,可以通过重叠部分的衔接,可以提高音频信号的平滑效果。
在本实施例的一个实现方式中,所述预设帧移可以为预设帧长的一半,使得相邻的两帧信号帧之间可以重叠50%,后一帧中包含音频信号中一半是前一帧的后一半音频信号,一半为新的音频信号。例如,每帧信号帧包括32ms的音频信号,那么后一帧的音频信号中均包括有16ms新的音频信号,即只需要加载16ms的音频信号。
进一步,所述能量为该信号帧的短时能量,其为该信号帧对应的时间段内的声音能量,所述短时能量为音频信号的信号强度的度量参数。其中,短时能量的计算过程可以为:假设时域上的音频信号为x(l),音频信号进行加窗分帧处理后得到的第n帧信号帧为xn(m),则xn(m)满足下式:
xn(m)=w(m)x(n+m),0≤m≤N-1
其中,n=0,1T,2T,....,(M-1)T,N为预设帧长,T为预设帧移,M为音频信号分帧过程中的移步次数,m为音频信号。
当然,值得说明的是,本实施例使用的加窗为矩形窗。
进一步,所述过零率为该信号帧通过零值的次数,即该信号帧的信号符号发生变化的次数。在所述过零率的计算过程可以为:对于该信号帧中的任意两个相邻采样点,计算将两个相邻采样点的信号符号相乘以得到乘积,若该乘积小于零则记为一个过零点。例如,两个相邻采样点A和采样点B,采样点A的信号符号为正,采样点的信号符号为负;则采样点A与采样点B的信号符号乘积为负数,即采样点A到采样点B为一个过零点。当然,值得说明的是,每帧信号帧包括多个采样点,各信号帧包括的采样点数据相同。可以理解的是,音频信号为离散的数字信号,该音频信号由若干采样点构成,在对音频信号进行分帧处理是将若干采样点进行分帧处理,以使得每帧信号帧均包括预设数量的采样点,并且当最后一帧信号帧为包含预设数量的采样点时,可以采用零补齐。其中,预设数量根据预设帧长乘以采样率。
S20、根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧。
具体地,所述语音突变帧为信号帧的能量发生突变的信号帧,所述发生突变指的是后一信号帧的短时能量相对于参考信号帧的能量发生变化,并且语音突变帧的能量与参考信号帧的能量的能量差值大于预设能量阈值,其中,预设能量阈值为预先设置的,例如,10等。其中,所述参考信号帧为按时间顺序位于该语音突变帧前,且参考信号帧与语音突变帧之间间隔预设数量的信号帧,这样可以避免因相邻两帧之间具有重复音频信号,带来的音频帧对应的短时能量具有重叠,从而提高了语音突变帧的准确性,例如,所述预设数量可以为1、2等。
举例说明:假设音频信号包括3帧信号帧,按照时间顺序分别记为第一信号帧、第二信号帧以及第三信号帧,第三信号帧为语音突变帧,预设数量为1,那么所述参考信号帧为第一信号帧。
进一步,在本实施例的一个实现方式中,所述根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧具体包括:
S21、根据计算得到的各信号帧的能量以及过零率,确定所述音频信号中的语音起始帧以及语音结束帧;
S22、根据获取到的各语音起始帧以及各语音结束帧,确定所述音频信号中的连续语音段,其中,所述连续语音段包括的干扰信号帧的数量满足预设条件,并且干扰信号帧的能量小于预设的能量下限值;
S23、根据获取到的各连续语音段,确定所述音频信号中的语音突变帧。
具体地,所述语音起始帧和语音结束帧的数量相同,并且语音起始帧与语音结束帧按照时间顺序交替出现,例如,音频信号包括语音起始帧A、语音起始帧B、语音结束帧A和语音结束帧B,语音起始帧A的播放时间早于语音起始帧B的播放时间,语音结束帧A的播放时间早于语音结束帧B的播放时间,那么语音起始帧A、语音起始帧B、语音结束帧A和语音结束帧B按照时间顺序排序形成的序列为语音起始帧A、语音结束帧A、语音起始帧B和语音结束帧B。可以理解的是,语音起始帧A和语音起始帧B之间有语音结束帧A;语音结束帧A与语音结束帧B之间有语音起始帧B。
此外,所述音频信号的起始信号帧为所述音频信号中的第一个语音起始帧,音频信号的最后信号帧为音频信号的最后一个语音接收帧。例如,所述音频信号的起始信号帧为信号帧A,最后信号帧为信号帧B,那么信号帧A为所有语音起始信号帧中的第一个,信号帧B为所有语音结束帧中的最后一个。例如,如上述实施例中,信号帧A为语音起始帧A;信号帧B为语音结束帧B。由此,音频信号至少包括一个语音起始帧和至少一个语音结束帧。在本实施例的一个实现方式中,在计算得到各信号帧的短时能量以及过零率后,可以采用语音活动检检测(Voice Activity Detection,VAD)检查音频信号中的语音起始帧和语音结束帧。
在本实施例的一个实现方式中,所述根据计算得到的各信号帧的能量以及过零率,确定所述音频信号中的语音起始帧以及语音结束帧的过程可以包括:按照时间顺序将音频信号对应的若干信号帧循环执行检测过程,以得到若干信号帧中的语音起始帧和语音接收帧。其中,所述检测过程具体可以包括:对于若干信号帧中一候选信号帧,并获取候选信号帧对应的音频信号状态;。
1)、当音频信号状态为静音时:
若候选信号帧的短时能量大于第一能量阈值,则将音频信号的音频状态修改为语音,将该候选信号帧记为语音起始帧,将候选信号帧的下一帧信号帧作为候选信号帧;
若候选信号帧的短时能量小于或等于第一能量阈值且大于第二能量阈值,或者短时能量小于或等于第一能量阈值且过零率大于过零率阈值,将音频信号的音频状态修改为开始,将候选信号帧的下一帧信号帧作为候选信号帧,其中,第二能量阈值小于第一能量阈值;
若候选信号帧的短时能量小于第二能量阈值且过零率小于或等于过零率阈值,保持音频信号的音频状态不变,将候选信号帧的下一帧信号帧作为候选信号帧;
2)、当音频信号状态为开始时:
若候选信号帧的短时能量大于第一能量阈值,则将音频信号的音频状态修改为语音,将该音频信号状态转换为开始时对应的候选信号帧为语音起始帧,将候选信号帧的下一帧信号帧作为候选信号帧;
若候选信号帧的短时能量小于或等于第一能量阈值且大于第二能量阈值,或者短时能量小于或等于第一能量阈值且过零率大于过零率阈值,将保持音频信号的音频状态不变,将候选信号帧的下一帧信号帧作为候选信号帧,其中,第二能量阈值小于第一能量阈值;
若候选信号帧的短时能量小于第二能量阈值且过零率小于或等于过零率阈值,将音频信号的音频状态设置为静音,将候选信号帧的下一帧信号帧作为候选信号帧;
3)、当音频信号状态为语音时:
若候选信号帧的短时能量大于第二能量阈值或者过零率大于过零率阈值,则保持音频信号的音频状态不变,将候选信号帧的下一帧信号帧作为候选信号帧;
若候选信号帧的短时能量大于第二能量阈值且过零率大于过零率阈值,将保持音频信号的音频状态不变,将静音帧数加一并判断静音帧数是否达到预设静音帧数阈值;当静音帧数达到预设静音阈值时,获取距离该候选信号帧最近的语音起始帧,并将候选信号帧与语音起始帧之间的帧数与预设帧数进行比较;若帧数小于预设帧数,则将该语音起始帧值所述候选信号帧之间的语音作为噪音信号,并将音频信号的音频状态设置为静音,将候选信号帧的下一帧信号帧作为候选信号帧;若帧数大于或等于预设帧数,则将候选帧作为语音结束帧,将音频信号的音频状态设置为开始,将候选信号帧的下一帧信号帧作为候选信号帧。
进一步,所述第一能量阈值、第二能量阈值、过零率阈值、预设帧数以及预设静音帧数阈值均为预先设置的,其中,所述第一能量阈值可以根据第一默认能量阈值和所有音频帧的短时能量计算得到,所述第二能量阈值可以根据第二默认能量阈值和所有音频帧的短时能量计算得到。例如,第一能量阈值=min(第一默认能量阈值,最大短时能量)/4);第二能量阈值=min(第二默认能量阈值,最大短时能量)/8)。
举例说明:假设采样率Fs为16000Hz时,帧长为32ms,帧移为16ms;第一默认能量阈值为10;第二默认能量阈值为2;过零率阈值为5;预设静音帧数阈值为5;预设帧数为10;其中,预设静音帧数阈值为连续语音段中允许的最大静音帧数,如果连续语音段的静音帧数未超过此值,则认为未达到语音接收帧,如果连续语音段的静音帧数超过此值,则将从语音起始帧到候选信号帧之间的信号帧的数量(包括语音起始帧和候选信号帧)预设帧数进行比较;若该数量小于预设帧数,则认为从语音起始帧到候选信号帧之间的信号帧为噪音,将从该语音起始帧到候选帧之间的信号帧舍弃,跳转静音状态;反之,将候选信号帧设置为语音接收帧。
进一步,在本实施例的一个实现方式中,所述根据获取到的各连续语音段,确定所述音频信号中的语音突变帧具体包括:
对于每个连续语音段中每帧信号帧,计算该帧信号帧与参考信号帧的能量差,其中,所述参考信号帧为按时间顺序位于该信号帧前,且与该信号帧间隔预设帧的信号帧;
若该能量差大于或等于所述预设能量阈值,则确定该信号帧为语音突变帧。
具体地,所述连续语音段为基于语音起始帧和语音结束帧确定,其中,对于任一语音起始帧,该语音起始帧与位于其后且与该语音起始帧相连接的语音结束帧形成一个连续语音段。例如,音频信号包括语音起始帧A、语音起始帧B、语音结束帧A和语音结束帧B;其中,语音起始帧A、语音起始帧B、语音结束帧A和语音结束帧B按照时间顺序排序形成的序列为语音起始帧A、语音结束帧A、语音起始帧B和语音结束帧B,那么语音起始帧A和语音结束帧A之间的信号帧形成一连续语音段;语音起始帧B和语音结束帧B之间的信号帧形成一连续语音段。当然,各连续语音段包括形成各连续语音段的语音起始帧和语音结束帧。
进一步,所述预设能阈值为预先设定,并且所述预设能量阈值为正值。可以理解的是,在获取到该信号帧的能量与参考信号帧的能量差后,可以判断能量差是否大于预设能量阈值,若大于则说明该信号帧的声音将发生突变,将该信号帧作为突变语音点;若小于或等于则说明该信号帧的声音不会发生突变,以此可以获取到音频信号中所有因声音的音量发生由小到大而产生突变的语音突变帧。
此外,对于每个连续语音段,该连续语音段的语音起始帧为音频信号由无声到有声的信号帧,此时,可以依据预设能量阈值来判断该起始信号帧是否为语义突变帧。相应的,在本实施例的一个实现方式中,所述获取到各连续语音段,确定所述音频信号中的语音突变帧包括:
对于每个连续语音段的起始信号帧,将该起始信号帧的能量与预设能量阈值进行比较;
若该起始信号帧的能量大于或者等于预设能量阈值,则确定该起始信号帧为语音突变帧。
具体地,由于语音起始帧的前一帧为静音帧,从而无需计算语音起始帧与参考信号帧的能量差,而直接采用该语音起始帧的能量进行确定,这样可以提高语音起始帧的判断效率。此外,由于人们对声音会有适应性,从而有无到有给人带来的刺激比由小声到大声带来的刺激强烈,为起始帧单独设定一个能量限制,该能量限制可以小于预设能量阈值,使得语音突变帧的判断更加准确。当然,值得说明的是,在本实施例的一个实现方式中,当信号帧与其对应的参考信号帧间隔1帧时,对于按照时间顺序位于第二的第二信号帧,第二信号帧不存在参考信号帧,而无法进行突变帧判断。但是,由于第二信号帧部分与第一信号帧重叠,部分与第三信号帧重叠,第一信号帧和第三信号帧进行语音突变点判断的情况,可以不用对第二信号帧进行确定,也不会影响突变语音帧判断的准确性。此外,在实际应用中,也可以采用第一信号帧为第二信号帧的参考信号帧等。
S30、对所述语音突变帧进行平滑处理,以得到处理后的音频信号。
具体地,所述平滑处理指的是将降低语音突变帧对应音量进行平滑,使得语音突变帧的音量与位于其前以及位于其后的信号帧的音量的差值减小,以得到音量从语音突变帧前的视频帧的音量平滑过渡到语音突变帧。在本实施例中,所述对所述语音突变帧进行平滑处理,以得到处理后的音频信号具体包括:
对于每个语音突变帧,确定该语音突变帧对应的若干对照信号帧,其中,所述对照信号帧与所述语音突变帧为连续信号帧;
根据该语音突变帧以及所确定到的若干对照信号帧,确定该语音突变帧对应的平滑系数;
基于各语音突变帧各自分别对应的平滑系数分别对各该语音突变帧进行平滑处理,以得到处理后的音频信号。
具体地,所述连续信号帧指的是对照信号帧的播放时刻与语音突变帧的播放时刻相邻,并且在对照信号帧与语音突变帧之间不存在其他信号帧。例如,对照信号帧包括对照信号帧A、对照信号帧B以及语音突变帧,并且对照信号帧A、对照信号帧B以及语音突变帧的播放时间顺序为语音突变帧、对照信号帧A以及对照信号帧B;那么语音突变帧与对照信号帧A之间没有其他信号帧,对照信号帧A与对照信号帧B之间没有其他信号帧。此外,所述当按照时间顺序语音突变帧前具有至少一帧信号帧时;所述若干参考信号帧中存在若干前置信号帧,前置信号帧的数量小于对照信号帧的数量,并且各前置信号帧按照时间顺序位于所述语音突变帧前。
进一步,对于每个语音突变帧,确定该语音突变帧的平滑系数时,可以根据语音突变帧的前一信号帧来来判断语音突变帧的类型,其中,类型包括有无到有和有小到大。可以理解的是,当语音突变帧的前一信号帧的能量小于能量下限值,则语音突变帧的类型为由无到有;当语音突变帧的前一信号帧的能量大于或等于能量下限值,则语音突变帧的类型为由小到到。
进一步,在本实施例的一个实现方式中,当类型为由无到有时,所述前置信号帧为1帧,平滑系数的确定过程为获取对照信号帧和语音突变帧包括的所有采样点的点数,根据获取到所有采样点的点数将0到1区间按照照等差数列分成点数各平滑系数,将该平滑系数作为语音突变帧与对照信号帧中的平滑系数,并对语音突变帧和对照信号帧进行平滑处理,例如分别将语音突变帧和对照信号帧各采样点对应的音量乘以该采样点对应的平滑系数。其中,划分得到的点数各平滑系数与点数各采样点一一对应,其中,采样点对应的播放时间越晚,对应的平滑系数越大,反之,采样点对应的播放时间越早,对应的平滑系数越小,这样使得语音突变帧与对照信号帧形成的音频信号段的音量可以逐步增大,实现声音的平滑过渡。例如,根据对照信号帧为六帧,其中,一帧位于语音突变帧之前,五帧位于语音突变帧之后,语音突变帧的类型为由无到有,根据这7帧信号帧包括的所有采集点的点数P,将0-1按照等差数列分成P个系数,形成各采样点对应的平滑系数。
进一步,当类型为有小到大时,所述前置信号帧的帧数与后置信号帧的帧数相等,平滑系数的确定过程为所有前置信号帧的能量和,以及所有后置信号帧组的能量和;并计算两个能量和的能量差异值;根据该能差异值确定语音突变帧的平滑系数,其中,能量差异值越大,语音突变帧对应的平滑系数越小,反之,能量差异值越小,语音突变帧对应的平滑系数越大。当然,值得说明的是,平滑系数小于1且大于0,在获取到平滑系数后,将类型为有小到大的语音突变帧的音量乘以所述平滑系数,以使得了对语音突变帧的平滑。
基于上述声音处理方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的声音处理方法中的步骤。
基于上述声音处理方法,本发明还提供了一种智能电视,如图2所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据智能电视的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及智能电视中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种声音处理方法,其特征在于,所述方法包括:
获取待处理的音频信号,并将计算所述音频信号中每帧信号帧的能量以及过零率;
根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧,其中,所述语音突变帧的能量与参考帧信号的能量差异值大于预设能量阈值,所述参考帧信号为按时间顺序位于该语音突变帧前且与语音突变帧间隔预设帧的信号帧;
对所述语音突变帧进行平滑处理,以得到处理后的音频信息。
2.根据权利要求1所述声音处理方法,其特征在于,所述音频信号为处于播放状态的视频的待播放音频信号。
3.根据权利要求1所述声音处理方法,其特征在于,所述获取待处理的音频信号,并将计算所述音频信号中每帧信号的能量具体包括:
获取待处理的音频信号,并按照预设帧长和预设帧移对所述音频信号进行分帧处理,以得到若干信号帧;
对于若干信号帧中的每帧信号帧,计算该信号帧的能量及过零率。
4.根据权利要求1所述声音处理方法,其特征在于,所述根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧具体包括:
根据计算得到的各信号帧的能量以及过零率,确定所述音频信号中的语音起始帧以及语音结束帧;
根据获取到的各语音起始帧以及各语音结束帧,确定所述音频信号中的连续语音段,其中,所述连续语音段包括的干扰信号帧的数量满足预设条件,并且各干扰信号帧的能量均小于预设的能量下限值;
根据获取到的各连续语音段,确定所述音频信号中的语音突变帧。
5.根据权利要求4所述声音处理方法,其特征在于,所述根据获取到的各连续语音段,确定所述音频信号中的语音突变帧具体包括:
对于每个连续语音段中每帧信号帧,计算该帧信号帧与参考信号帧的能量差;若该能量差大于或等于所述预设能量阈值,则确定该信号帧为语音突变帧,其中,所述参考信号帧为按时间顺序位于该信号帧前,且与该信号帧间隔预设帧的信号帧。
6.根据权利要求4所述声音处理方法,其特征在于,所述获取到各连续语音段,确定所述音频信号中的语音突变帧包括:
对于每个连续语音段的起始信号帧,将该起始信号帧的能量与预设能量阈值进行比较;
若该起始信号帧的能量大于或者等于预设能量阈值,则确定该起始信号帧为语音突变帧。
7.根据权利要求4所述声音处理方法,其特征在于,所述对所述语音突变帧进行平滑处理,以得到处理后的音频信息之前,所述方法包括:
对于每个连续语音段,将该连续语音段中的各干扰信号帧均设置为静音。
8.根据权利要求1所述声音处理方法,其特征在于,所述对所述语音突变帧进行平滑处理,以得到处理后的音频信息具体包括:
对于每个语音突变帧,确定该语音突变帧对应的若干对照信号帧,并根据该语音突变帧以及所确定的若干对照信号帧,确定该语音突变帧对应的平滑系数,其中,所述对照信号帧与所述语音突变帧为连续信号帧;
基于各语音突变帧各自分别对应的平滑系数分别对各该语音突变帧进行平滑处理,以得到处理后的音频信息。
9.根据权利要求7所述声音处理方法,其特征在于,当按照时间顺序语音突变帧前具有至少一帧信号帧时;所述若干对照信号帧中存在若干前置信号帧,前置信号帧的数量小于对照信号帧的数量,并且各前置信号帧按照时间顺序位于所述语音突变帧前。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-9任意一项所述的声音处理方法中的步骤。
11.一种智能电视,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-9任意一项所述的声音处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010288901.0A CN113542863B (zh) | 2020-04-14 | 2020-04-14 | 一种声音处理方法、存储介质以及智能电视 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010288901.0A CN113542863B (zh) | 2020-04-14 | 2020-04-14 | 一种声音处理方法、存储介质以及智能电视 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113542863A true CN113542863A (zh) | 2021-10-22 |
CN113542863B CN113542863B (zh) | 2023-05-23 |
Family
ID=78120037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010288901.0A Active CN113542863B (zh) | 2020-04-14 | 2020-04-14 | 一种声音处理方法、存储介质以及智能电视 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113542863B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077728A (zh) * | 2012-12-31 | 2013-05-01 | 上海师范大学 | 一种病人虚弱语音端点检测方法 |
CN104284224A (zh) * | 2014-11-04 | 2015-01-14 | 成都博盛信息技术有限公司 | 一种具有声音监听功能的智能电视 |
CN104538041A (zh) * | 2014-12-11 | 2015-04-22 | 深圳市智美达科技有限公司 | 异常声音检测方法及系统 |
TW201519656A (zh) * | 2013-11-01 | 2015-05-16 | Univ Lunghwa Sci & Technology | 電視音量調整系統及其音量調整方法 |
WO2015115677A1 (ko) * | 2014-01-28 | 2015-08-06 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
CN105374367A (zh) * | 2014-07-29 | 2016-03-02 | 华为技术有限公司 | 异常帧检测方法和装置 |
CN106448712A (zh) * | 2016-10-20 | 2017-02-22 | 广州视源电子科技股份有限公司 | 一种音频信号的自动增益控制方法和装置 |
CN108152788A (zh) * | 2017-12-22 | 2018-06-12 | 西安Tcl软件开发有限公司 | 声源追踪方法、声源追踪设备及计算机可读存储介质 |
WO2018107874A1 (zh) * | 2016-12-16 | 2018-06-21 | 广州视源电子科技股份有限公司 | 一种音频数据的自动增益控制方法与装置 |
CN110265064A (zh) * | 2019-06-12 | 2019-09-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频爆音检测方法、装置和存储介质 |
CN110473563A (zh) * | 2019-08-19 | 2019-11-19 | 山东省计算中心(国家超级计算济南中心) | 基于时频特征的呼吸声检测方法、系统、设备及介质 |
-
2020
- 2020-04-14 CN CN202010288901.0A patent/CN113542863B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077728A (zh) * | 2012-12-31 | 2013-05-01 | 上海师范大学 | 一种病人虚弱语音端点检测方法 |
TW201519656A (zh) * | 2013-11-01 | 2015-05-16 | Univ Lunghwa Sci & Technology | 電視音量調整系統及其音量調整方法 |
WO2015115677A1 (ko) * | 2014-01-28 | 2015-08-06 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
CN105374367A (zh) * | 2014-07-29 | 2016-03-02 | 华为技术有限公司 | 异常帧检测方法和装置 |
CN104284224A (zh) * | 2014-11-04 | 2015-01-14 | 成都博盛信息技术有限公司 | 一种具有声音监听功能的智能电视 |
CN104538041A (zh) * | 2014-12-11 | 2015-04-22 | 深圳市智美达科技有限公司 | 异常声音检测方法及系统 |
CN106448712A (zh) * | 2016-10-20 | 2017-02-22 | 广州视源电子科技股份有限公司 | 一种音频信号的自动增益控制方法和装置 |
WO2018107874A1 (zh) * | 2016-12-16 | 2018-06-21 | 广州视源电子科技股份有限公司 | 一种音频数据的自动增益控制方法与装置 |
CN108152788A (zh) * | 2017-12-22 | 2018-06-12 | 西安Tcl软件开发有限公司 | 声源追踪方法、声源追踪设备及计算机可读存储介质 |
CN110265064A (zh) * | 2019-06-12 | 2019-09-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频爆音检测方法、装置和存储介质 |
CN110473563A (zh) * | 2019-08-19 | 2019-11-19 | 山东省计算中心(国家超级计算济南中心) | 基于时频特征的呼吸声检测方法、系统、设备及介质 |
Non-Patent Citations (4)
Title |
---|
SONGTAO DING等: "A long video caption generation algorithm for big video data retrieval" * |
姜囡: "《语音信号识别技术与实践》", 31 December 2019 * |
张涛: "《机器人概论》", 31 January 2020 * |
王瑾: "低码率下H.264码率控制跳帧/插帧算法研究" * |
Also Published As
Publication number | Publication date |
---|---|
CN113542863B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3522151B1 (en) | Method and device for processing dual-source audio data | |
CN108520741A (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
CN110097890B (zh) | 一种语音处理方法、装置和用于语音处理的装置 | |
CN106653036B (zh) | 基于ott盒子的混音转码方法 | |
CN110428811B (zh) | 一种数据处理方法、装置及电子设备 | |
KR20080061747A (ko) | 오디오 배속 재생 방법 및 장치 | |
CN114203163A (zh) | 音频信号处理方法及装置 | |
CN102214464A (zh) | 音频信号的瞬态检测方法以及基于该方法的时长调整方法 | |
CN110503968A (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN104851423B (zh) | 一种声音信息处理方法及装置 | |
CN112423019B (zh) | 调整音频播放速度的方法、装置、电子设备及存储介质 | |
CN113542863A (zh) | 一种声音处理方法、存储介质以及智能电视 | |
CN110516043A (zh) | 用于问答系统的答案生成方法和装置 | |
CN113299269B (zh) | 语音合成系统的训练方法、装置、计算机设备及存储介质 | |
CN113782050B (zh) | 声音变调方法、电子设备及存储介质 | |
CN106340310A (zh) | 语音检测方法及装置 | |
CN112565881B (zh) | 自适应的视频播放方法和系统 | |
CN110677208B (zh) | 一种用于会议系统的混音方法和系统 | |
US11783837B2 (en) | Transcription generation technique selection | |
CN105336327B (zh) | 音频数据的增益控制方法及装置 | |
CN114743571A (zh) | 一种音频处理方法、装置、存储介质及电子设备 | |
CN111326166B (zh) | 语音处理方法及装置、计算机可读存储介质、电子设备 | |
CN112750456A (zh) | 即时通信应用中的语音数据处理方法、装置及电子设备 | |
CN112542157A (zh) | 语音处理方法、装置、电子设备及计算机可读存储介质 | |
CN114694629B (zh) | 用于语音合成的语音数据扩增方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |