CN108962268A - 确定单声道的音频的方法和装置 - Google Patents

确定单声道的音频的方法和装置 Download PDF

Info

Publication number
CN108962268A
CN108962268A CN201810838031.2A CN201810838031A CN108962268A CN 108962268 A CN108962268 A CN 108962268A CN 201810838031 A CN201810838031 A CN 201810838031A CN 108962268 A CN108962268 A CN 108962268A
Authority
CN
China
Prior art keywords
audio
data
channel
conversion spectrum
left channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810838031.2A
Other languages
English (en)
Other versions
CN108962268B (zh
Inventor
张超钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201810838031.2A priority Critical patent/CN108962268B/zh
Publication of CN108962268A publication Critical patent/CN108962268A/zh
Application granted granted Critical
Publication of CN108962268B publication Critical patent/CN108962268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本申请提供了一种确定单声道的音频的方法和装置,属于计算机技术领域。所述方法包括:在确定目标音频是不是单声道的音频的过程中,可以获取目标音频的左声道音频数据和右声道音频数据,然后确定左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱,然后确定左声道音频数据和右声道音频数据的误差总分量,在误差总分量小于预设数值时,可以确定目标音频为单声道的音频,在误差总分量大于或等于预设数值时,可以确定目标音频为双声道的音频。采用本申请,可以提高确定单声道的音频的准确率。

Description

确定单声道的音频的方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种确定单声道的音频的方法和装置。
背景技术
随着计算机技术的发展,音频应用程序越来越多,每个音频应用程序都对应有音频数据库,音频数据库一般设置在服务器中,在音频数据库中包括多个音频的音频数据,每个音频的音频数据有可能有多个。一般情况,在接收到音频数据的下载请求时,服务器会优先推荐双声道音频。但由于音频制作的多样性,部分音频虽然是双声道的音频,但是两个声道的音频数据几乎是完全相同的,属于“伪双声道”,即“单声道”。因此,很有必要将这部分“伪双声道”的音频识别出来。
相关技术中,判断音频是否属于双声道的音频的方案,一般是将同一时刻,左声道音频数据的波形的幅值与右声道音频数据的波形的幅值相减,如果相减之后的差值均小于预设数值,则确定该音频数据为单声道的音频数据,反之则为双声道的音频数据。
这样,由于部分音频数据的左声道音频数据和右声道音频数据有可能有时延或相位差异,仅使用波形的幅值的差值作为评价标准,有可能会导致某些伪双声道的音频数据没有被确定出来。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种确定单声道的音频的方法和装置。所述技术方案如下:
第一方面,提供了一种确定单声道的音频的方法,所述方法包括:
获取目标音频的左声道音频数据和右声道音频数据;
确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱;
根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量;
如果所述误差总分量小于预设数值,则所述目标音频为单声道的音频,如果所述误差总分量大于或等于所述预设数值,则所述目标音频为双声道的音频。
可选的,所述确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱,包括:
确定所述左声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述左声道音频数据的Hartley transform变换谱;
确定所述右声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述右声道音频数据的Hartley transform变换谱。
可选的,所述根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量,包括:
确定同一时间段中的同一频点,所述左声道音频数据中的音频帧的Hartleytransform变换谱与所述右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;
将所述目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
可选的,所述确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱,包括:
基于预设的窗,对所述左声道音频数据和所述右声道音频数据进行加窗处理;
确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
可选的,所述方法还包括:
确定所述左声道音频数据和右声道音频数据的时延;
根据所述时延,通过移位或者补零的方式,对所述左声道音频数据和右声道音频数据进行对齐处理。
第二方面,提供了一种确定单声道的音频的装置,所述装置包括:
获取模块,用于获取目标音频的左声道音频数据和右声道音频数据;
第一确定模块,用于确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱;
第二确定模块,用于根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量;
第二确定模块,用于如果所述误差总分量小于预设数值,则所述目标音频为单声道的音频,如果所述误差总分量大于或等于所述预设数值,则所述目标音频为双声道的音频。
可选的,所述第一确定模块,用于:
确定所述左声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述左声道音频数据的Hartley transform变换谱;
确定所述右声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述右声道音频数据的Hartley transform变换谱。
可选的,所述第二确定模块,用于:
确定同一时间段中的同一频点,所述左声道音频数据中的音频帧的Hartleytransform变换谱与所述右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;
将所述目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
可选的,所述第一确定模块,用于:
基于预设的窗,对所述左声道音频数据和所述右声道音频数据进行加窗处理;
确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
可选的,所述第一确定模块,还用于:
确定所述左声道音频数据和右声道音频数据的时延;
根据所述时延,通过移位或者补零的方式,对所述左声道音频数据和右声道音频数据进行对齐处理。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,使用了Hartley transform变换谱分解方法,来确定左声道音频数据和右声道音频数据的总误差分量,然后使用该总误差分量,确定是否为伪双声道的音频,相对比左右声道相减法准确,所以可以尽可能的确定出伪双声道的音频,可以提高确定单声道的音频的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种确定单声道的音频的方法流程示意图;
图2是本发明实施例提供的一种确定单声道的音频的装置的结构示意图;
图3是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种确定单声道的音频的方法,该方法的执行主体可以为服务器,服务器中存储有音频数据库,服务器中可以设置有处理器、存储器和收发器等,处理器可以用于确定单声道的音频的过程的处理,存储器可以用于存储确定单声道的音频的过程中需要的数据以及产生的数据,收发器可以用于接收以及发送数据。
在进行实施前,首先介绍一下本发明实施例的应用场景:
服务器中的音频数据库中,存储某个音频的音频数据时,一般是存储多份不同的音频数据,不同的音频数据的音质不相同,例如,对于歌曲《冰雨》,存储有三份双声道的音频数据,但是实际上有一份双声道的音频数据为“伪双声道的音频数据”(伪双声道的音频数据指音频数据虽然有两个声道的音频数据,但是两个声道的音频数据几乎完全相同)。在终端请求某个音频的音频数据时,为了使用户听到的音频数据效果比较好,一般是为终端推送双声道的音频数据,所以就需要提供一种排除伪双声道的音频数据的方法,也即需要提供一种确定单声道的音频的方法。
上述双声道的音频数据指音频的音频数据中包括左声道音频数据和右声道音频数据,这样,在终端播放这类型的音频时,左声道播放左声道音频数据,右声道播放右声道音频数据,立体感比较强。
上述单声道的音频数据指音频数据中仅包括一个声道的音频数据,终端的左声道和右声道播放相同的音频数据,立体感比较差。
如图1所示,本发明实施例提供了一种确定单声道的音频数据的方法,该方法的处理流程可以如下:
步骤101,获取目标音频的左声道音频数据和右声道音频数据。
其中,目标音频为服务器中的任一音频,对于同一音频,一般左声道音频数据和右声道音频数据会存储在同一个音频文件中。
在实施中,服务器在可以从音频数据库中,获取目标音频的音频文件,从音频文件中获取的左声道音频数据和右声道音频数据。
可选的,在本发明实施例中,为了使确定单声道的音频更准确,还提供了补偿左右声道时延的方式,相应的处理可以如下:
确定左声道音频数据和右声道音频数据的时延;根据时延,通过移位或者补零的方式,对左声道音频数据和右声道音频数据进行对齐处理。
在实施中,假设左声道音频数据的波形的时间序列为x(n),右声道音频数据的波形的时间序列为y(n),两者存在时延为τ,两者的相关函数为c(τ),如下式(1)所示:
在式(1)中,N为时间序列的采样点数,相关函数c(τ)在t=τ处有一个明显的峰值,检测左声道音频数据和右声道音频数据的峰值的位置,即可得到时延的位置。如果时延值τ不为零,则通过移位或者补零,对左声道音频数据和右声道音频数据进行对齐处理(即补齐处理),保证两者相位不存在偏差。
这样,可以避免时延引起的相位偏差,使左声道音频数据和右声道音频数据对齐。
步骤102,确定左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱。
在实施中,服务器在获取到目标音频的左声道音频数据和右声道音频数据后,可以确定左声道音频数据的Hartley transform变换谱,并且确定右声道音频数据的Hartleytransform变换谱。
可选的,可以使用以下方式来确定Hartley transform变换谱:
确定左声道音频数据中每个音频帧的音频数据在各频点的Hartley transform变换谱,将各频点的Hartley transform变换谱进行组合,得到左声道音频数据的Hartleytransform变换谱;确定右声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将各频点的Hartley transform变换谱进行组合,得到右声道音频数据的Hartley transform变换谱。
在实施中,服务器中存储有预设采样率,如44.0KHz等,对于左声道音频数据,如果采样率不是预设采样率,则首先将左声道音频数据的采样率变换到预设采样率,如果采样率是预设采样率,则不需要进行调整。然后将左声道音频数据,进行分音频帧处理,得到多个音频帧,假设每个音频帧包括N个频点,连续两个音频帧有M个重叠的频点,M小于N。
对于左声道音频数据中第i个音频帧,可以表示为Xi=[x0,x1,x2,...,xN-1],其中,x0表示第0个时间点的音频波形数据,N表示频点的数目,然后将当前音频帧Xi采用如下公式(1)进行处理,得到Hartley transform变换谱。
在式(2)中Hk表示是当前音频帧Xi的Hartley transform变换谱的第k个频点。
这样,将左声道音频数据中每个音频帧的Hartley transform变换谱组合起来,得到左声道音频数据的Hartley transform变换谱为HL=[HL1HL2...HLn],n表示左声道包括的音频帧的数目。
同理,对于右声道音频数据,如果采样率不是预设采样率,则首先将右声道音频数据的采样率变换到预设采样率,如果采样率是预设采样率,则不需要进行调整,然后将右声道音频数据,进行分音频帧处理,得到多个音频帧,假设每个音频帧包括N个频点,连续两个音频帧有M个重叠的频点,M小于N。
对于右声道音频数据中第i个音频帧,可以表示为Xi=[x0,x1,x2,...,xN-1],其中,x0表示第0个时间点的音频波形数据,然后将当前音频Xi采用上述公式(2)进行处理,得到Hartley transform变换谱。
这样,将右声道音频数据中每个音频帧的Hartley transform变换谱组合起来,得到右声道音频数据的Hartley transform变换谱为HR=[HR1HR2...HRn],n表示右声道包括的音频帧的数目。
需要说明的是,考虑到频谱分辨率的影响,需要将每个音频帧的频点数目N设置在一个较为合理的范围内。
还需要说明的是,在一个音频帧中包括多个时间点,经过转换后包括的就是多个频点。
可选的,为了降低音频帧之间频谱泄露现象的出现,可以对每个音频帧进行加窗处理,相应的处理可以如下:
基于预设的窗,对左声道音频数据和右声道音频数据进行加窗处理;确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
其中,预设的窗为汉明窗或海宁窗,窗的长度等于每个音频帧的频点的数目。
在实施中,服务器可以获取预设的窗,然后使用预设的窗,对左声道音频数据进行加窗处理,得到加窗处理后的左声道音频数据,然后确定加窗处理后的左声道音频数据的Hartley transform变换谱。并且对右声道音频数据进行加窗处理,得到加窗处理后的右声道音频数据,然后确定加窗处理后的右声道音频数据的Hartley transform变换谱。
步骤103,根据左声道音频数据的Hartley transform变换谱和右声道音频数据的Hartley transform变换谱,确定左声道音频数据和右声道音频数据的误差总分量。
在实施中,服务器可以使用左声道音频数据的Hartley transform变换谱和右声道音频数据的Hartley transform变换谱,确定出左声道音频数据和右声道音频数据的总误差分量。
可选的,确定总误差分量的方法可以如下:
确定同一时间段中的同一频点,左声道音频数据中的音频帧的Hartleytransform变换谱与右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;将目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
其中,不管是左声道音频数据,还是左声道音频数据,其中的每个音频帧的时长都是固定的,也就是对应一个时间段,如30ms等。
在实施中,服务器可以获取同一时间段中的同一频点,左声道音频数据中的音频帧的Hartley transform变换谱与右声道音频数据中的音频帧的Hartley transform变换谱,使用这两个音频帧的Hartley transform,确定出左声道音频数据中的音频帧的Hartley transform变换谱与右声道音频数据中的音频帧的Hartley transform变换谱的误差分量。
将目标音频中不同时间段的每个频点对应的误差分量相加,就可以得到左声道音频数据和右声道音频数据的误差总分量。
可选的,可以使用如下方式计算误差总分量:
sumR=HLk,m+HRk,m
sumI=HLk,m+1+HRk,m+1
diffR=HLk,m-HRk,m
diffI=HLk,m+1-HRk,m+1
sumRI=sumR*sumR+sumI*sumI
diffRI=diffR*diffR+diffI*diffI
在上述几个公式中,HLk,m表示左声道音频数据中第k个音频帧的第m个频点的Hartley transform变换谱,HRk,m表示右声道音频数据中第k个音频帧的第m个频点的Hartley transform变换谱,HLk,m+1表示左声道音频数据中第k个音频帧的第m+1个频点的Hartley transform变换谱,HRk,m+1表示右声道音频数据中第k个音频帧的第m+1个频点的Hartley transform变换谱。
然后计算系数Ch=0.5-0.5*sqrt(diffRI/sumRI),其中sqrt为开平方根运算。
接着计算第k个音频帧的第m个频点上,左声道音频数据和右声道音频数据的误差分量ERRORk,m=(HLk,m-sumR*Ch)*(HRk,m-sumI*Ch)。
然后计算左声道音频数据和右声道音频数据的误差总分量为
需要说明的是,对于每个音频帧都是有一定时长的,也就是对应上述提到的时间段的概念。
步骤104,如果误差总分量小于预设数值,则目标音频为单声道的音频,如果误差总分量大于或等于预设数值,则目标音频为双声道的音频。
其中,预设数值可以预设,并且存储至服务器中。
在实施中,服务器在确定出左声道音频数据和右声道音频数据的误差总分量之后,然后判断误差总分量与预设数值的大小,如果误差总分量小于预设数值,则可以确定目标音频为单声道的音频,如果误差总分量大于或等于预设数值,可以确定目标音频为双声道的音频。
本发明实施例中,使用了Hartley transform变换谱分解方法,来确定左声道音频数据和右声道音频数据的总误差分量,然后使用该总误差分量,确定是否为伪双声道的音频,相对比左右声道相减法准确,所以可以尽可能的确定出伪双声道的音频,可以提高确定单声道的音频的准确率。
基于相同的技术构思,本发明实施例还提供了一种确定单声道的音频的装置,如图2所示,该装置包括:
获取模块210,用于获取目标音频的左声道音频数据和右声道音频数据;
第一确定模块220,用于确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱;
第二确定模块230,用于根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量;
第二确定模块240,用于如果所述误差总分量小于预设数值,则所述目标音频为单声道的音频,如果所述误差总分量大于或等于所述预设数值,则所述目标音频为双声道的音频。
可选的,所述第一确定模块220,用于:
确定所述左声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述左声道音频数据的Hartley transform变换谱;
确定所述右声道音频数据中每个音频帧的音频数据在各频点的Hartleytransform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述右声道音频数据的Hartley transform变换谱。
可选的,所述第二确定模块230,用于:
确定同一时间段中的同一频点,所述左声道音频数据中的音频帧的Hartleytransform变换谱与所述右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;
将所述目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
可选的,所述第一确定模块220,用于:
基于预设的窗,对所述左声道音频数据和所述右声道音频数据进行加窗处理;
确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
可选的,所述第一确定模块220,还用于:
确定所述左声道音频数据和右声道音频数据的时延;
根据所述时延,通过移位或者补零的方式,对所述左声道音频数据和右声道音频数据进行对齐处理。
本发明实施例中,使用了Hartley transform变换谱分解方法,来确定左声道音频数据和右声道音频数据的总误差分量,然后使用该总误差分量,确定是否为伪双声道的音频,相对比左右声道相减法准确,所以可以尽可能的确定出伪双声道的音频,可以提高确定单声道的音频的准确率。
需要说明的是:上述实施例提供的确定单声道的音频的装置在确定单声道的音频时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定单声道的音频的装置与确定单声道的音频的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图3是本发明实施例提供的一种服务器的结构示意图,该计服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)301和一个或一个以上的存储器302,其中,所述存储器302中存储有至少一条指令,所述至少一条指令由所述处理器301加载并执行以实现上述确定单声道的音频的处理。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种确定单声道的音频的方法,其特征在于,所述方法包括:
获取目标音频的左声道音频数据和右声道音频数据;
确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱;
根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量;
如果所述误差总分量小于预设数值,则所述目标音频为单声道的音频,如果所述误差总分量大于或等于所述预设数值,则所述目标音频为双声道的音频。
2.根据权利要求1所述的方法,其特征在于,所述确定所述左声道音频数据的Hartleytransform变换谱、以及右声道音频数据的Hartley transform变换谱,包括:
确定所述左声道音频数据中每个音频帧的音频数据在各频点的Hartley transform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述左声道音频数据的Hartley transform变换谱;
确定所述右声道音频数据中每个音频帧的音频数据在各频点的Hartley transform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述右声道音频数据的Hartley transform变换谱。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量,包括:
确定同一时间段中的同一频点,所述左声道音频数据中的音频帧的Hartleytransform变换谱与所述右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;
将所述目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
4.根据权利要求1所述的方法,其特征在于,所述确定所述左声道音频数据的Hartleytransform变换谱、以及右声道音频数据的Hartley transform变换谱,包括:
基于预设的窗,对所述左声道音频数据和所述右声道音频数据进行加窗处理;
确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
确定所述左声道音频数据和右声道音频数据的时延;
根据所述时延,通过移位或者补零的方式,对所述左声道音频数据和右声道音频数据进行对齐处理。
6.一种确定单声道的音频的装置,其特征在于,所述装置包括:
获取模块,用于获取目标音频的左声道音频数据和右声道音频数据;
第一确定模块,用于确定所述左声道音频数据的Hartley transform变换谱、以及右声道音频数据的Hartley transform变换谱;
第二确定模块,用于根据所述左声道音频数据的Hartley transform变换谱和所述右声道音频数据的Hartley transform变换谱,确定所述左声道音频数据和所述右声道音频数据的误差总分量;
第二确定模块,用于如果所述误差总分量小于预设数值,则所述目标音频为单声道的音频,如果所述误差总分量大于或等于所述预设数值,则所述目标音频为双声道的音频。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块,用于:
确定所述左声道音频数据中每个音频帧的音频数据在各频点的Hartley transform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述左声道音频数据的Hartley transform变换谱;
确定所述右声道音频数据中每个音频帧的音频数据在各频点的Hartley transform变换谱,将确定出的各频点的Hartley transform变换谱进行组合,得到所述右声道音频数据的Hartley transform变换谱。
8.根据权利要求6或7所述的装置,其特征在于,所述第二确定模块,用于:
确定同一时间段中的同一频点,所述左声道音频数据中的音频帧的Hartleytransform变换谱与所述右声道音频数据中的音频帧的Hartley transform变换谱的误差分量;
将所述目标音频中不同时间段的每个频点对应的误差分量相加,得到左声道音频数据和右声道音频数据的误差总分量。
9.根据权利要求6所述的装置,其特征在于,所述第一确定模块,用于:
基于预设的窗,对所述左声道音频数据和所述右声道音频数据进行加窗处理;
确定加窗处理后的左声道音频数据的Hartley transform变换谱、以及加窗处理后的右声道音频数据的Hartley transform变换谱。
10.根据权利要求6或7所述的装置,其特征在于,所述第一确定模块,还用于:
确定所述左声道音频数据和右声道音频数据的时延;
根据所述时延,通过移位或者补零的方式,对所述左声道音频数据和右声道音频数据进行对齐处理。
CN201810838031.2A 2018-07-26 2018-07-26 确定单声道的音频的方法和装置 Active CN108962268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810838031.2A CN108962268B (zh) 2018-07-26 2018-07-26 确定单声道的音频的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810838031.2A CN108962268B (zh) 2018-07-26 2018-07-26 确定单声道的音频的方法和装置

Publications (2)

Publication Number Publication Date
CN108962268A true CN108962268A (zh) 2018-12-07
CN108962268B CN108962268B (zh) 2020-11-03

Family

ID=64465010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810838031.2A Active CN108962268B (zh) 2018-07-26 2018-07-26 确定单声道的音频的方法和装置

Country Status (1)

Country Link
CN (1) CN108962268B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4257066A (en) * 1978-05-17 1981-03-17 Sony Corporation Channel selecting apparatus for use with signal receiver and signal recorder
US20060050898A1 (en) * 2004-09-08 2006-03-09 Sony Corporation Audio signal processing apparatus and method
US20060133619A1 (en) * 1996-02-08 2006-06-22 Verizon Services Corp. Spatial sound conference system and method
CN1926608A (zh) * 2004-03-01 2007-03-07 弗兰霍菲尔运输应用研究公司 多声道信号处理设备和方法
CN101150890A (zh) * 2006-09-22 2008-03-26 索尼株式会社 声音再现系统和声音再现方法
US20100202620A1 (en) * 2009-01-28 2010-08-12 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
CN101996633A (zh) * 2009-08-18 2011-03-30 富士通株式会社 用于在音频信号中嵌入水印的方法和装置
US7920708B2 (en) * 2006-11-16 2011-04-05 Texas Instruments Incorporated Low computation mono to stereo conversion using intra-aural differences
CN102016984A (zh) * 2008-05-02 2011-04-13 杜比实验室特许公司 用于动态声音传送的系统和方法
CN102132340A (zh) * 2008-08-15 2011-07-20 Dts(Bvi)有限公司 参数立体声转换系统和方法
US20110206223A1 (en) * 2008-10-03 2011-08-25 Pasi Ojala Apparatus for Binaural Audio Coding
CN102243876A (zh) * 2010-05-12 2011-11-16 华为技术有限公司 预测残差信号的量化编码方法及装置
CN102484763A (zh) * 2009-07-22 2012-05-30 斯托明瑞士有限责任公司 用于优化立体声或伪立体声音频信号的设备和方法
CN104053120A (zh) * 2014-06-13 2014-09-17 福建星网视易信息系统有限公司 一种立体声音频的处理方法和装置
CN106328168A (zh) * 2016-08-30 2017-01-11 成都普创通信技术股份有限公司 一种语音信号相似度检测方法
CN107659888A (zh) * 2017-08-21 2018-02-02 广州酷狗计算机科技有限公司 识别伪立体声音频的方法、装置及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4257066A (en) * 1978-05-17 1981-03-17 Sony Corporation Channel selecting apparatus for use with signal receiver and signal recorder
US20060133619A1 (en) * 1996-02-08 2006-06-22 Verizon Services Corp. Spatial sound conference system and method
CN1926608A (zh) * 2004-03-01 2007-03-07 弗兰霍菲尔运输应用研究公司 多声道信号处理设备和方法
US20060050898A1 (en) * 2004-09-08 2006-03-09 Sony Corporation Audio signal processing apparatus and method
CN1747608A (zh) * 2004-09-08 2006-03-15 索尼株式会社 音频信号处理装置和方法
CN101150890A (zh) * 2006-09-22 2008-03-26 索尼株式会社 声音再现系统和声音再现方法
US7920708B2 (en) * 2006-11-16 2011-04-05 Texas Instruments Incorporated Low computation mono to stereo conversion using intra-aural differences
CN102016984A (zh) * 2008-05-02 2011-04-13 杜比实验室特许公司 用于动态声音传送的系统和方法
CN102132340A (zh) * 2008-08-15 2011-07-20 Dts(Bvi)有限公司 参数立体声转换系统和方法
US20110206223A1 (en) * 2008-10-03 2011-08-25 Pasi Ojala Apparatus for Binaural Audio Coding
US20100202620A1 (en) * 2009-01-28 2010-08-12 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
CN102484763A (zh) * 2009-07-22 2012-05-30 斯托明瑞士有限责任公司 用于优化立体声或伪立体声音频信号的设备和方法
CN101996633A (zh) * 2009-08-18 2011-03-30 富士通株式会社 用于在音频信号中嵌入水印的方法和装置
CN102243876A (zh) * 2010-05-12 2011-11-16 华为技术有限公司 预测残差信号的量化编码方法及装置
CN104053120A (zh) * 2014-06-13 2014-09-17 福建星网视易信息系统有限公司 一种立体声音频的处理方法和装置
CN106328168A (zh) * 2016-08-30 2017-01-11 成都普创通信技术股份有限公司 一种语音信号相似度检测方法
CN107659888A (zh) * 2017-08-21 2018-02-02 广州酷狗计算机科技有限公司 识别伪立体声音频的方法、装置及存储介质

Also Published As

Publication number Publication date
CN108962268B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
US8853516B2 (en) Audio analysis apparatus
CN103854644B (zh) 单声道多音音乐信号的自动转录方法及装置
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
US8543387B2 (en) Estimating pitch by modeling audio as a weighted mixture of tone models for harmonic structures
CN104620313A (zh) 音频信号分析
EP2633524A1 (en) Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal
CN108257613A (zh) 修正音频内容音高偏差的方法及装置
US20220051685A1 (en) Method for transforming audio signal, device, and storage medium
CN108206026A (zh) 确定音频内容音高偏差的方法及装置
CN104599663B (zh) 歌曲伴奏音频数据处理方法和装置
CN111680187A (zh) 乐谱跟随路径的确定方法、装置、电子设备及存储介质
EP2375407B1 (en) Music analysis apparatus
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN104978966B (zh) 音频流中的丢帧补偿实现方法和装置
US9646633B2 (en) Method and device for processing audio signals
Christensen Multi-channel maximum likelihood pitch estimation
CN111613241A (zh) 一种高精度高稳定度的弦乐器基波频率检测方法
CN107210029A (zh) 用于处理一连串信号以进行复调音符辨识的方法和装置
JP5395399B2 (ja) 携帯端末、拍位置推定方法および拍位置推定プログラム
KR102018286B1 (ko) 음원 내 음성 성분 제거방법 및 장치
US20120291611A1 (en) Method and apparatus for separating musical sound source using time and frequency characteristics
CN108962268A (zh) 确定单声道的音频的方法和装置
CN110085214B (zh) 音频起始点检测方法和装置
CN108074588B (zh) 一种音高计算方法及装置
JP2003140671A (ja) 混合音の分離装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant