CN106384599A - 一种破音识别的方法和装置 - Google Patents

一种破音识别的方法和装置 Download PDF

Info

Publication number
CN106384599A
CN106384599A CN201610797871.XA CN201610797871A CN106384599A CN 106384599 A CN106384599 A CN 106384599A CN 201610797871 A CN201610797871 A CN 201610797871A CN 106384599 A CN106384599 A CN 106384599A
Authority
CN
China
Prior art keywords
mean
distorsion
root
amplitude
bands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610797871.XA
Other languages
English (en)
Other versions
CN106384599B (zh
Inventor
劳振锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201610797871.XA priority Critical patent/CN106384599B/zh
Publication of CN106384599A publication Critical patent/CN106384599A/zh
Application granted granted Critical
Publication of CN106384599B publication Critical patent/CN106384599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种破音识别的方法和装置,属于计算机技术领域。所述方法包括:获取目标音频的第一音频帧的音频频域数据;将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。采用本发明,可以实现对音频数据的破音识别。

Description

一种破音识别的方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种破音识别的方法和装置。
背景技术
随着计算机技术和音频处理技术的发展,数字化的音频数据得到了广泛的应用,用户一般最常用的听歌方式,是通过手机、平板电脑、计算等终端来播放歌曲的音频数据,进而聆听相应的歌曲。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
网络中存在大量的歌曲的音频数据,有些是歌曲原唱的音频数据,有些是网络主播或网友歌唱的音频数据,这其中不乏一些低质量的音频数据,甚至有些音频数据中存在破音,破音会严重影响用户在听歌过程中的体验。所以,急待有一种能够识别音频数据是否存在破音的方法。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种破音识别的方法和装置。所述技术方案如下:
第一方面,提供了一种破音识别的方法,所述方法包括:
获取目标音频的第一音频帧的音频频域数据;
将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;
根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。
可选的,所述根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别,包括:
根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别。
这样,可以进一步提高破音识别的准确度。
可选的,所述根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别,包括:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别。
这样,可以进一步提高破音识别的准确度。
可选的,所述根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别,包括:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值;
如果所述破音加权值大于或等于预设阈值,则确定所述第一音频帧为破音音频帧。
这样,可以进一步提高破音识别的准确度。
可选的,所述根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值,包括:
通过公式G=F*a+FmeanΔ*b+FvarΔ*c、 计算破音加权值G,其中,Fl为所述相邻子带之间的均方根能量总的变化度,Fmean为所述幅度均值,Fvar为所述幅度均方差,Fl0为所述相邻子带之间的均方根能量总的变化度的破音参考值,Fmean0为所述幅度均值的破音参考值,Fvar0为所述幅度均方差的破音参考值,a为所述相邻子带之间的均方根能量总的变化度的权值,b为所述幅度均值的权值,c为所述幅度均方差的权值。
这样,提供了一种进行破音识别的具体方法。
可选的,所述相邻子带之间的均方根能量总的变化度,为其中,b为子带编号,N为子带总数,F(b)为子带b的均方根能量。
这样,可以进一步提高破音识别的准确度。
第二方面,提供了一种破音识别的装置,所述装置包括:
获取模块,用于获取目标音频的第一音频帧的音频频域数据;
确定模块,用于将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;
识别模块,用于根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。
可选的,所述识别模块,用于:
根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别。
可选的,所述识别模块,用于:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别。
可选的,所述识别模块,用于:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值;
如果所述破音加权值大于或等于预设阈值,则确定所述第一音频帧为破音音频帧。
可选的,所述识别模块,用于:
通过公式G=F*a+FmeanΔ*b+FvarΔ*c、 计算破音加权值G,其中,Fl为所述相邻子带之间的均方根能量总的变化度,Fmean为所述幅度均值,Fvar为所述幅度均方差,Fl0为所述相邻子带之间的均方根能量总的变化度的破音参考值,Fmean0为所述幅度均值的破音参考值,Fvar0为所述幅度均方差的破音参考值,a为所述相邻子带之间的均方根能量总的变化度的权值,b为所述幅度均值的权值,c为所述幅度均方差的权值。
可选的,所述相邻子带之间的均方根能量总的变化度,为其中,b为子带编号,N为子带总数,F(b)为子带b的均方根能量。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,获取目标音频的第一音频帧的音频频域数据,将音频频域数据的频域范围划分为多个子带,确定音频频域数据在每个子带中的均方根能量,根据相邻子带之间的均方根能量总的变化度,对第一音频帧进行破音识别。这样,通过上述处理则可以对音频帧进行破音识别,即可以实现对音频数据的破音识别。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种破音识别的方法的流程示意图;
图2是本发明实施例提供的一种音频频域数据的示意图;
图3是本发明实施例提供的一种破音识别的装置的结构示意图;
图4是本发明实施例提供的一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种破音识别的方法,该方法可以由服务器或终端实现。其中,服务器可以是某音频数据库的服务器,如歌曲库服务器。终端可以是具有音频播放功能的终端,终端中可以安装有音频播放应用程序。
该服务器或终端可以包括处理器、存储器等部件。处理器,可以为CPU(CentralProcessing Unit,中央处理单元)等,可以用于获取音频频域数据,计算音频频域数据在每个子带中的均方根能量,根据相邻子带之间的均方根能量总的变化度,对第一音频帧进行破音识别等处理。存储器,可以为RAM(Random Access Memory,随机存取存储器),Flash(闪存)等,可以用于存储处理过程所需的数据、处理过程中生成的数据等,如第一音频帧的音频频域数据、音频频域数据在每个子带中的均方根能量、相邻子带之间的均方根能量总的变化度、所述音频频域数据的幅度均值、所述音频频域数据的幅度均方差等。另外,服务器或终端还可以包括收发器,可以用于与其它设备进行通信,将存在破音的音频通知给其它设备。终端还可以包括显示器,可以用于当检测到存在破音的音频帧时,向用户发出提示。
服务器应用本实施例的方案,可以对音频库中的音频(如歌曲)进行筛选,将存在破音音频帧的音频在音频库中进行标记,或从音频库中删除。
终端应用本实施例的方案,可以便于用户对本地或网络中的音频进行破音识别,以决定是否对相应的音频进行播放。
本实施例以执行主体为终端为例进行方案的说明,其它情况与之类似,本实施例不再累述。
如图1所示,该方法的处理流程可以包括如下的步骤:
步骤101,获取目标音频的第一音频帧的音频频域数据。
其中,音频帧的音频频域数据可以是多个频点处的幅度值,可以记作Y(k),k可以为频点编号,Y为幅度值。第一音频帧可以是目标音频中的任一音频帧。
在实施中,用户可以在终端安装有具有音频播放功能的应用程序,该应用程序中可以设置有破音识别的功能选项,用户点击该功能选项可以进入音频选择界面,该界面中可以显示有本地或网络中的音频列表,用户可以在其中选择一个音频(即目标音频)进行破音识别,用户点击开始识别按键,则会触发终端开始破音识别。终端可以对目标音频进行数据采样,在每个预设时长间隔内采样预设数目个点的数字音频信号,进而,对一个时长间隔内采样的预设数目个点的数字音频信号进行短时傅里叶变换,可以得到一个音频帧的音频频域数据。此得到的音频频域数据的频点数目与采样的预设数目相等。例如,每50毫秒采样1024个点,那么,对50毫秒内的1024个采样点的数字音频信号进行短时傅里叶变换,可以得到一个音频帧的音频频域数据,该音频频域数据的频点数目为1024。
终端对目标音频进行上述处理,可以获取目标音频的所有音频帧的音频频域数据,进而,可以对每个音频帧的音频频域数据进行步骤101-103的处理,当识别出某一个音频帧存在破音时,则可以判定目标音频存在破音,如果所有音频帧都不存在破音,则可以判定目标音频不存在破音。
步骤102,将音频频域数据的频域范围划分为多个子带,确定音频频域数据在每个子带中的均方根能量。
其中,音频频域数据在一个子带中的均方根能量可以是子带中所有频点处的幅度值的均方根。
在实施中,可以预先设置子带划分的数目,如16。在获取到音频频域数据后,可以得知音频频域数据的频点数目,进而将音频频域数据的频域范围划分为多个带宽相同的子带,这样,每个子带包含的频点数目是相同的,此时,可以确定每个子带分别包含哪些频点。例如,音频频域数据的频点数目为1024,划分子带数目为16,那么每个子带可以包括64个频点。
进而,可以通过以下公式(1)计算音频频域数据在每个子带中的均方根能量。
F ( b ) = Σ k = B l B u | Y ( k ) | 2 L ... ( 1 )
其中,b为子带编号,为正整数,F(b)为子带b的均方根能量,L为每个子带中包括的频点数目,k为频点编号,Y(k)为频点k的幅度值,Bl和Bu分别为子带b的两个边界频点(最低频点和最高频点)的频点编号。
步骤103,根据相邻子带之间的均方根能量总的变化度,对第一音频帧进行破音识别。
在实施中,相邻子带之间的均方根能量总的变化度可以是反映两两相邻子带之间均方根能量的变化情况的参数,总的变化度过高,说明较多的相邻子带之间存在能量突变,则存在破音的可能性很高,如图2所示,为破音音频帧和非破音音频帧的音频频域数据的对比,在这个图中可以看出破音音频帧的幅度变化具有突变性的特点,可以在一定程度的反映出破音音频帧的均方根能量也会具有突变性的特点。如果判定第一音频帧为破音音频帧,则可以判定目标音频为破音音频,如果判定第一音频帧不存在破音,且目标歌曲的其它音频帧都不存在破音,则可以确定目标音频不存在破音,即为非破音音频。如果终端判定目标音频为破音音频,则可以显示目标音频为破音音频的提示信息,如果判定目标音频不存在破音,则可以显示目标音频不存在破音的提示信息。
本实施例中,可以采用的相邻子带之间的均方根能量总的变化度的参数可以多种多样,以下给出了几种可行的参数设置方式:
方式一,相邻子带之间的均方根能量总的变化度,为其中,b为子带编号,N为子带总数,F(b)为子带b的均方根能量。
方式二,相邻子带之间的均方根能量总的变化度,为其中,b为子带编号,N为子带总数,F(b)为子带b的均方根能量。
本实施例中,根据相邻子带之间的均方根能量总的变化度对第一音频帧进行破音识别的处理方式可以多种多样。
一种可选方式,可以将相邻子带之间的均方根能量总的变化度与预设阈值比较,如果变化度大于或等于预设阈值,则判定第一音频帧存在破音,即为破音音频帧,如果变化度小于预设阈值,则判定第一音频帧不存在破音。
第二种可选方式可以如下:根据相邻子带之间的均方根能量总的变化度,以及上述音频频域数据的幅度均值,对第一音频帧进行破音识别。
其中,幅度均值可以为其中,Fmean为幅度均值,M为音频频域数据的总频点数目,k为频点编号,Y(k)为频点k的幅度值。
在实施中,可以预先为变化度和幅度均值分别设置破音参考值和权值。在进行该方式的处理时,可以计算相邻子带之间的均方根能量总的变化度与变化度的破音参考值的第一差值,并计算幅度均值与幅度均值的破音参考值的第二差值,计算第一差值与变化度的权值的第一乘积,以及第二差值与幅度均值的权值的第二乘积,将第一乘积与第二乘积的和值确定为第一音频帧的破音加权值。如果破音加权值大于或等于预设阈值,则判定第一音频帧存在破音,即为破音音频帧,如果破音加权值小于预设阈值,则判定第一音频帧不存在破音。
第三中可选方式可以如下:根据相邻子带之间的均方根能量总的变化度,音频频域数据的幅度均值,以及音频频域数据的幅度均方差,对第一音频帧进行破音识别。
其中,幅度均方差可以为其中,Fvar为幅度均方差,Fmean为幅度均值,M为音频频域数据的总频点数目,k为频点编号,Y(k)为频点k的幅度值。
在实施中,这种方式基于三种参数进行破音识别,也可以采用加权的方式计算一个破音加权值,进而进行破音识别,相应的处理可以如下:
步骤一,根据相邻子带之间的均方根能量总的变化度,音频频域数据的幅度均值,音频频域数据的幅度均方差,以及预先设置的相邻子带之间的均方根能量总的变化度、幅度均值、幅度均方差的破音参考值和权值,确定第一音频帧的破音加权值。
在实施中,可以通过如下公式(2)、(3)、(4)、(5)计算破音加权值G。
G=F*a+FmeanΔ*b+FvarΔ*c………………………………………………(2)
F l &Delta; = F l - F l 0 , F l &GreaterEqual; F l 0 0 , F l < F l 0 ... ( 3 )
F m e a n &Delta; = F m e a n - F m e a n 0 , F m e a n &GreaterEqual; F m e a n 0 0 , F m e a n < F m e a n 0 ... ( 4 )
F var &Delta; = F var - F var 0 , F var &GreaterEqual; F var 0 0 , F var < F var 0 ... ( 5 )
其中,Fl为相邻子带之间的均方根能量总的变化度,Fmean为幅度均值,Fvar为幅度均方差,Fl0为相邻子带之间的均方根能量总的变化度的破音参考值,Fmean0为幅度均值的破音参考值,Fvar0为幅度均方差的破音参考值,a为相邻子带之间的均方根能量总的变化度的权值,b为幅度均值的权值,c为幅度均方差的权值。
上述的Fl0、Fmean0、Fvar0、a、b、c,的取值为预先设置,技术人员可以根据大量的实验或者根据经验,确定这些参数的取值。
步骤二,如果破音加权值大于或等于预设阈值,则确定第一音频帧为破音音频帧。
如果破音加权值小于预设阈值,则可以确定第一音频帧不存在破音。
可选的,Fl0取值可以为3000,Fmean0取值可以为6,Fvar0取值可以为200,a取值可以为1,b取值可以为500,c取值可以为20,相应的,预设阈值的取值可以为590。
本发明实施例中,获取目标音频的第一音频帧的音频频域数据,将音频频域数据的频域范围划分为多个子带,确定音频频域数据在每个子带中的均方根能量,根据相邻子带之间的均方根能量总的变化度,对第一音频帧进行破音识别。这样,通过上述处理则可以对音频帧进行破音识别,即可以实现对音频数据的破音识别。
基于相同的技术构思,本发明实施例还提供了一种破音识别的装置,该装置可以是上述实施例中提到的终端或服务器,如图3所示,该装置包括:
获取模块310,用于获取目标音频的第一音频帧的音频频域数据;
确定模块320,用于将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;
识别模块330,用于根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。
可选的,所述识别模块330,用于:
根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别。
可选的,所述识别模块330,用于:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别。
可选的,所述识别模块330,用于:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值;
如果所述破音加权值大于或等于预设阈值,则确定所述第一音频帧为破音音频帧。
可选的,所述识别模块330,用于:
通过公式G=F*a+FmeanΔ*b+FvarΔ*c、 计算破音加权值G,其中,Fl为所述相邻子带之间的均方根能量总的变化度,Fmean为所述幅度均值,Fvar为所述幅度均方差,Fl0为所述相邻子带之间的均方根能量总的变化度的破音参考值,Fmean0为所述幅度均值的破音参考值,Fvar0为所述幅度均方差的破音参考值,a为所述相邻子带之间的均方根能量总的变化度的权值,b为所述幅度均值的权值,c为所述幅度均方差的权值。
可选的,所述相邻子带之间的均方根能量总的变化度,为其中,b为子带编号,N为子带总数,F(b)为子带b的均方根能量。
本发明实施例中,获取目标音频的第一音频帧的音频频域数据,将音频频域数据的频域范围划分为多个子带,确定音频频域数据在每个子带中的均方根能量,根据相邻子带之间的均方根能量总的变化度,对第一音频帧进行破音识别。这样,通过上述处理则可以对音频帧进行破音识别,即可以实现对音频数据的破音识别。
需要说明的是:上述实施例提供的获取歌曲信息的装置在获取歌曲信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的获取歌曲信息的装置与获取歌曲信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图4,其示出了本发明实施例所涉及的终端的结构示意图,该终端可以用于实施上述实施例中提供的破音识别的方法。具体来讲:
终端1200可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity,无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图4中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端1200的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端1200的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图4中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端1200还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端1200移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端1200之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端1200的通信。
WiFi属于短距离无线传输技术,终端1200通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块170,但是可以理解的是,其并不属于终端1200的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端1200的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端1200的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端1200还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端1200还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端1200的显示单元是触摸屏显示器,终端1200还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令:
获取目标音频的第一音频帧的音频频域数据;
将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;
根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。
可选的,所述根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别,包括:
根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别。
可选的,所述根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别,包括:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别。
可选的,所述根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别,包括:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值;
如果所述破音加权值大于或等于预设阈值,则确定所述第一音频帧为破音音频帧。
可选的,所述根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值,包括:
通过公式G=F*a+FmeanΔ*b+FvarΔ*c、 计算破音加权值G,其中,Fl为所述相邻子带之间的均方根能量总的变化度,Fmean为所述幅度均值,Fvar为所述幅度均方差,Fl0为所述相邻子带之间的均方根能量总的变化度的破音参考值,Fmean0为所述幅度均值的破音参考值,Fvar0为所述幅度均方差的破音参考值,a为所述相邻子带之间的均方根能量总的变化度的权值,b为所述幅度均值的权值,c为所述幅度均方差的权值。
可选的,所述相邻子带之间的均方根能量总的变化度,为其中,b为子带编号,N为子带总数,F(b)为子带b的均方根能量。
本发明实施例中,获取目标音频的第一音频帧的音频频域数据,将音频频域数据的频域范围划分为多个子带,确定音频频域数据在每个子带中的均方根能量,根据相邻子带之间的均方根能量总的变化度,对第一音频帧进行破音识别。这样,通过上述处理则可以对音频帧进行破音识别,即可以实现对音频数据的破音识别。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种破音识别的方法,其特征在于,所述方法包括:
获取目标音频的第一音频帧的音频频域数据;
将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;
根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。
2.根据权利要求1所述的方法,其特征在于,所述根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别,包括:
根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别。
3.根据权利要求2所述的方法,其特征在于,所述根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别,包括:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别。
4.根据权利要求3所述的方法,其特征在于,所述根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别,包括:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值;
如果所述破音加权值大于或等于预设阈值,则确定所述第一音频帧为破音音频帧。
5.根据权利要求4所述的方法,其特征在于,所述根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值,包括:
通过公式G=F*a+FmeanΔ*b+FvarΔ*c、 计算破音加权值G,其中,Fl为所述相邻子带之间的均方根能量总的变化度,Fmean为所述幅度均值,Fvar为所述幅度均方差,Fl0为所述相邻子带之间的均方根能量总的变化度的破音参考值,Fmean0为所述幅度均值的破音参考值,Fvar0为所述幅度均方差的破音参考值,a为所述相邻子带之间的均方根能量总的变化度的权值,b为所述幅度均值的权值,c为所述幅度均方差的权值。
6.根据权利要求1所述的方法,其特征在于,所述相邻子带之间的均方根能量总的变化度,为其中,b为子带编号,N为子带总数,F(b)为子带b的均方根能量。
7.一种破音识别的装置,其特征在于,所述装置包括:
获取模块,用于获取目标音频的第一音频帧的音频频域数据;
确定模块,用于将所述音频频域数据的频域范围划分为多个子带,确定所述音频频域数据在每个子带中的均方根能量;
识别模块,用于根据相邻子带之间的均方根能量总的变化度,对所述第一音频帧进行破音识别。
8.根据权利要求7所述的装置,其特征在于,所述识别模块,用于:
根据相邻子带之间的均方根能量总的变化度,以及所述音频频域数据的幅度均值,对所述第一音频帧进行破音识别。
9.根据权利要求8所述的装置,其特征在于,所述识别模块,用于:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,以及所述音频频域数据的幅度均方差,对所述第一音频帧进行破音识别。
10.根据权利要求9所述的装置,其特征在于,所述识别模块,用于:
根据相邻子带之间的均方根能量总的变化度,所述音频频域数据的幅度均值,所述音频频域数据的幅度均方差,以及预先设置的所述相邻子带之间的均方根能量总的变化度、所述幅度均值、所述幅度均方差的破音参考值和权值,确定所述第一音频帧的破音加权值;
如果所述破音加权值大于或等于预设阈值,则确定所述第一音频帧为破音音频帧。
11.根据权利要求10所述的装置,其特征在于,所述识别模块,用于:
通过公式G=F*a+FmeanΔ*b+FvarΔ*c、 计算破音加权值G,其中,Fl为所述相邻子带之间的均方根能量总的变化度,Fmean为所述幅度均值,Fvar为所述幅度均方差,Fl0为所述相邻子带之间的均方根能量总的变化度的破音参考值,Fmean0为所述幅度均值的破音参考值,Fvar0为所述幅度均方差的破音参考值,a为所述相邻子带之间的均方根能量总的变化度的权值,b为所述幅度均值的权值,c为所述幅度均方差的权值。
12.根据权利要求7所述的装置,其特征在于,所述相邻子带之间的均方根能量总的变化度,为其中,b为子带编号,N为子带总数,F(b)为子带b的均方根能量。
CN201610797871.XA 2016-08-31 2016-08-31 一种破音识别的方法和装置 Active CN106384599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610797871.XA CN106384599B (zh) 2016-08-31 2016-08-31 一种破音识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610797871.XA CN106384599B (zh) 2016-08-31 2016-08-31 一种破音识别的方法和装置

Publications (2)

Publication Number Publication Date
CN106384599A true CN106384599A (zh) 2017-02-08
CN106384599B CN106384599B (zh) 2018-09-04

Family

ID=57938841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610797871.XA Active CN106384599B (zh) 2016-08-31 2016-08-31 一种破音识别的方法和装置

Country Status (1)

Country Link
CN (1) CN106384599B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862093A (zh) * 2017-12-06 2018-03-30 广州酷狗计算机科技有限公司 文件属性识别方法及装置
CN107910019A (zh) * 2017-11-30 2018-04-13 中国科学院微电子研究所 一种人体声音信号处理及分析方法
CN108364660A (zh) * 2018-02-09 2018-08-03 腾讯音乐娱乐科技(深圳)有限公司 重音识别方法、装置及计算机可读存储介质
WO2021025622A1 (en) * 2019-08-05 2021-02-11 National University Of Singapore System and method for assessing quality of a singing voice
CN112927713A (zh) * 2019-12-06 2021-06-08 腾讯科技(深圳)有限公司 音频特征点的检测方法、装置和计算机存储介质
CN117998254A (zh) * 2024-04-07 2024-05-07 腾讯科技(深圳)有限公司 破音修复方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198091A (ja) * 1996-01-18 1997-07-31 Yamaha Corp フォルマント変換装置およびカラオケ装置
CN101499300A (zh) * 2009-03-06 2009-08-05 武汉大学 一种基于空间音频参数的音频关注度分析装置
US20090259475A1 (en) * 2005-07-20 2009-10-15 Katsuyoshi Yamagami Voice quality change portion locating apparatus
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法
CN103794220A (zh) * 2012-10-29 2014-05-14 无敌科技(西安)有限公司 处理破音音频信号的装置及其方法
CN103915103A (zh) * 2014-04-15 2014-07-09 成都凌天科创信息技术有限责任公司 语音质量增强系统
CN105338148A (zh) * 2014-07-18 2016-02-17 华为技术有限公司 一种根据频域能量对音频信号进行检测的方法和装置
CN105825868A (zh) * 2016-05-30 2016-08-03 福州大学 一种演唱者有效音域的提取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198091A (ja) * 1996-01-18 1997-07-31 Yamaha Corp フォルマント変換装置およびカラオケ装置
US20090259475A1 (en) * 2005-07-20 2009-10-15 Katsuyoshi Yamagami Voice quality change portion locating apparatus
CN101499300A (zh) * 2009-03-06 2009-08-05 武汉大学 一种基于空间音频参数的音频关注度分析装置
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法
CN103794220A (zh) * 2012-10-29 2014-05-14 无敌科技(西安)有限公司 处理破音音频信号的装置及其方法
CN103915103A (zh) * 2014-04-15 2014-07-09 成都凌天科创信息技术有限责任公司 语音质量增强系统
CN105338148A (zh) * 2014-07-18 2016-02-17 华为技术有限公司 一种根据频域能量对音频信号进行检测的方法和装置
CN105825868A (zh) * 2016-05-30 2016-08-03 福州大学 一种演唱者有效音域的提取方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107910019A (zh) * 2017-11-30 2018-04-13 中国科学院微电子研究所 一种人体声音信号处理及分析方法
CN107862093A (zh) * 2017-12-06 2018-03-30 广州酷狗计算机科技有限公司 文件属性识别方法及装置
CN107862093B (zh) * 2017-12-06 2020-06-30 广州酷狗计算机科技有限公司 文件属性识别方法及装置
CN108364660A (zh) * 2018-02-09 2018-08-03 腾讯音乐娱乐科技(深圳)有限公司 重音识别方法、装置及计算机可读存储介质
WO2021025622A1 (en) * 2019-08-05 2021-02-11 National University Of Singapore System and method for assessing quality of a singing voice
US11972774B2 (en) 2019-08-05 2024-04-30 National University Of Singapore System and method for assessing quality of a singing voice
CN112927713A (zh) * 2019-12-06 2021-06-08 腾讯科技(深圳)有限公司 音频特征点的检测方法、装置和计算机存储介质
CN117998254A (zh) * 2024-04-07 2024-05-07 腾讯科技(深圳)有限公司 破音修复方法、装置及存储介质

Also Published As

Publication number Publication date
CN106384599B (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN106384599A (zh) 一种破音识别的方法和装置
CN105788612B (zh) 一种检测音质的方法和装置
CN103309673A (zh) 一种基于手势的会话处理方法、装置及终端设备
CN106210755A (zh) 一种播放直播视频的方法、装置和系统
CN106782613A (zh) 信号检测方法及装置
CN106294168B (zh) 一种进行应用程序测试的方法和系统
CN108319657A (zh) 检测强节奏点的方法、存储介质和终端
CN106126174A (zh) 一种场景音效的控制方法、及电子设备
CN106847307A (zh) 信号检测方法及装置
CN106375774A (zh) 一种直播间显示内容控制的方法、装置和系统
CN105959482B (zh) 一种场景音效的控制方法、及电子设备
CN106599204A (zh) 多媒体内容推荐方法及装置
CN106231433A (zh) 一种播放网络视频的方法、装置和系统
CN106126675A (zh) 一种推荐音频的方法、装置及系统
CN109243488A (zh) 音频检测方法、装置及存储介质
CN106558299A (zh) 音频演绎的模式切换方法及装置
CN103744574A (zh) 一种用于移动终端的闹钟关闭方法、装置和移动终端
CN104091600B (zh) 一种歌声位置检测方法及装置
CN106210919A (zh) 一种播放主播歌唱视频的方法、装置和系统
CN109817241A (zh) 音频处理方法、装置及存储介质
CN107170440A (zh) 定向传声方法、装置、移动终端及计算机可读存储介质
CN107786714A (zh) 基于车载多媒体设备的语音控制方法、装置及系统
CN107577795A (zh) 一种推荐歌曲的方法、装置和系统
CN103546632A (zh) 一种用于移动终端的闹铃响铃方法、装置和移动终端
CN108615158A (zh) 风险检测方法、装置、移动终端和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 510660 Guangzhou City, Guangzhou, Guangdong, Whampoa Avenue, No. 315, self - made 1-17

Applicant after: Guangzhou KuGou Networks Co., Ltd.

Address before: 510000 B1, building, No. 16, rhyme Road, Guangzhou, Guangdong, China 13F

Applicant before: Guangzhou KuGou Networks Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant