CN115985333A - 一种音频信号对齐方法、装置、存储介质及电子设备 - Google Patents

一种音频信号对齐方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115985333A
CN115985333A CN202111204813.9A CN202111204813A CN115985333A CN 115985333 A CN115985333 A CN 115985333A CN 202111204813 A CN202111204813 A CN 202111204813A CN 115985333 A CN115985333 A CN 115985333A
Authority
CN
China
Prior art keywords
signal
audio signal
sampling
segment
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111204813.9A
Other languages
English (en)
Inventor
刘荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd, Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN202111204813.9A priority Critical patent/CN115985333A/zh
Priority to PCT/CN2022/125471 priority patent/WO2023061496A1/zh
Publication of CN115985333A publication Critical patent/CN115985333A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本申请公开了一种音频信号对齐方法、装置、存储介质及电子设备,其中,方法包括:对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,对所述第一正值信号进行低通滤波处理获得第一处理信号,对所述第二正值信号进行低通滤波处理获得第二处理信号,基于所述第一处理信号和所述第二处理信号之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。采用本申请,通过信号正值处理和低通滤波处理获得音频信号的波形轮廓再进行对齐处理,提升对齐处理的抗噪性和计算效率,进而提高音频检测处理结果的准确性。

Description

一种音频信号对齐方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种音频信号对齐方法、装置、存储介质及电子设备。
背景技术
在音频信号处理中经常会需要对音频内容相同的音频信号进行相关信号的检测处理,例如消除回声、检查收音设备的收音效果等,但是由于音频信号在各种设备和空气中传播,容易混入很多噪声,并且在不同设备中所形成的音频信号会存在不同的信号延迟,因而导致音频信号的检测处理结果不准确。
发明内容
本申请实施例提供了一种音频信号对齐方法、装置、存储介质及电子设备,可以通过信号正值处理和低通滤波处理获得音频信号的波形轮廓再进行对齐处理,提升对齐处理的抗噪性和计算效率,进而提高音频检测处理结果的准确性。
所述技术方案如下:
第一方面,本申请实施例提供了一种音频信号对齐方法,所述方法包括:
对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,所述第一音频信号与所述第二音频信号具有相同的音频内容;
对所述第一正值信号进行低通滤波处理获得第一处理信号,对所述第二正值信号进行低通滤波处理获得第二处理信号;
基于所述第一处理信号和所述第二处理信号之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
第二方面,本申请实施例提供了一种音频信号对齐装置,所述装置包括:正值处理模组、低通滤波器和对齐模组;其中,
所述低通滤波器的一端和所述正值处理模组相连接,所述低通滤波器的另一端和所述对齐模组相连接;
所述正值处理模组,用于对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,将所述第一音频信号、所述第二音频信号、所述第一正值信号和所述第二正值信号传输至所述低通滤波器,所述第一音频信号与所述第二音频信号具有相同的音频内容;
所述低通滤波器,用于在对所述第一正值信号进行低通滤波处理获得第一处理信号,对所述第二正值信号进行低通滤波处理获得第二处理信号,将所述第一音频信号、所述第二音频信号、所述第一处理信号和所述第二处理信号传输至所述对齐模组;
所述对齐模组,用于基于所述第一处理信号和所述第二处理信号之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
在本申请实施例中,对第一音频信号和第二音频信号进行信号正值处理获得第一正值信号和第二正值信号,用于保护音频信号中的高频信息,对第一正值信号和第二正值信号进行低通滤波处理获得第一处理信号和第二处理信号,获得音频信号的波形轮廓,基于所述第一处理信号和所述第二处理信号之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理,实现了对不同音频信号进行对齐处理,在保证音频信号对齐的准确性的基础上,通过信号正值处理和低通滤波处理获得音频信号的波形轮廓再进行对齐处理,提升了对齐处理的抗噪性和计算效率,进而提高了音频检测处理结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频信号对齐的场景示意图;
图2是本申请实施例提供的一种音频信号的举例示意图;
图3是本申请实施例提供的一种音频信号对齐方法的流程示意图;
图4是本申请实施例提供的一种音频信号对齐方法的流程示意图;
图5是本申请实施例提供的一种第一采样片段获取的举例示意图;
图6是本申请实施例提供的一种初始采样片段获取的举例示意图;
图7是本申请实施例提供的一种音频信号对齐装置的结构示意图;
图8是本申请实施例提供的一种音频信号对齐装置的结构示意图;
图9是本申请实施例提供的一种对齐处理模块的结构示意图;
图10是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例提供的音频信号对齐方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的音频信号对齐装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。本申请实施例中的音频信号对齐装置可以为手机、个人电脑、平板电脑、手持设备、可穿戴设备等电子设备,也可以为电子设备中可以实现音频信号对齐方法的模块。用户可以将需要进行对齐的第一音频信号和第二音频信号发送至音频信号对齐装置中进行对齐处理,第一音频信号和第二音频信号具有相同的音频内容,例如:第一音频信号和第二音频信号是同一首歌曲、同一段语音内容,但是第一音频信号和第二音频信号中的歌曲或者语音内容也可以是不同的歌手演唱、不同的人朗读的,由于信号传输等原因,第一音频信号和第二音频信号中存在不同的延迟、噪声或混响,需要在音频信号对齐装置中先进行对齐,便于给对齐后的第一音频信号和第二音频信号进行信号检测处理。例如当信号检测处理是用于检测收声设备的收声效果或进行回声消除时,第一音频信号和第二音频信号的音频内容可以是完全相同的歌曲等,仅仅是由于不同电子设备的收声、传递而产生的不同的音频信号;当信号检测处理是用于检测歌手演唱音准等场景时,第一音频信号和第二音频信号的音频内容可以为不同歌手演唱的同一歌曲。
请参见图1,为本申请实施例提供了一种音频信号对齐的场景示意图,音频信号对齐可以应用于回声消除、收声设备收声效果检测等场景中,例如图1为对麦克风等收声设备的收声效果进行检测的场景,第一音频信号可以为原始音频信号,可以通过喇叭、音箱等音响设备将第一音频信号进行输出,再采用麦克风等收声设备进行采集得到第二音频信号,可以理解的是第一音频信号和第二音频信号的音频内容是相同的,但是由于音频信号在不同设备和空气中进行传播、收声设备的质量等问题,会存在噪声、回响,所以可以对第一音频信号和第二音频信号进行比较来获得麦克风的收声效果,但是在比较之前由于不同设备之间可能存在延迟,第一音频信号和第二音频信号之间也存在延迟,即第一音频信号和第二音频信号在相同的时间点对应的音频内容不相同,请一并参见图2,为本申请实施例提供了一种音频信号的举例示意图,第一音频信号和第二音频信号中包含有相同的音频内容,但是由于在不同的电子设备中传播会产生不同的延迟,例如音频内容在第一音频信号的开头部分,而第二音频信号中是在一段延迟时间后再开始播放音频内容,即第二音频信号相比于第一音频信号延迟开始播放音频内容,可以理解的是,第二音频信号也可以提前第一音频信号开始播放音频内容。
若直接对第一音频信号和第二音频信号进行比较不能得到精确的结果,所以需要将第一音频信号和第二音频信号发送给音频信号对齐装置进行对齐,音频信号对齐装置可以使得对齐处理后的第一音频信号和第二音频信号在相同的时间点对应的音频内容时相同的。本申请实施例中的第一音频信号和第二音频信号是表示机械波的信号,是机械波的波长、强度变化的信息载体,其中音频信号的波长、谐波和波强等可以表示音频内容的音调、音色和音强等。
下面结合具体的实施例对本申请提供的音频信号对齐方法进行详细说明。
请参见图3,为本申请实施例提供了一种音频信号对齐方法的流程示意图。如图3所示,本申请实施例的所述方法可以包括以下步骤S101-S103。
S101,对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号。
具体的,由于音频信号在各种电子设备、空气之间传播,第一音频信号和第二音频信号之间会存在时间差,所以需要经由音频信号对齐装置对第一音频信号和第二音频信号进行对齐处理,音频信号对齐装置进行对齐处理的方法可以为在第一音频信号中获取第一采样片段,在第二音频信号中获取与第一采样片段的信号数值存在最大相似值的第二采样片段,根据第一采样片段和第二采样片段之间的时间差来进行对齐处理。由于第一音频信号和第二音频信号的信号波形十分复杂,若直接用第一音频信号和第二音频信号进行信号数值的比较,需要十分复杂计算过程和庞大的计算量,所以可以对拥有与第一音频信号和第二音频信号大致相同的波形轮廓的信号获取第一采样片段和第二采样片段。
音频信号对齐装置可以对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,信号正值处理就是将音频信号中的信号数值都转换为大于零或等于零的信号数值,信号正值处理后的第一音频信号和第二音频信号可以防止在进行低通滤波处理时被过滤掉高频信息,可以起到保留高频信息的作用,可以理解的是信号正值处理可以为绝对值处理,也可以为偶次方处理,绝对值处理就是将音频信号中的信号数值进行求绝对值处理,偶次方处理就是对音频信号中的信号数值求平方和或偶数次方,同样的,信号正值处理还可以是半波整流处理或希尔伯特变换等。
除了可以对音频信号进行信号正值处理,还可以对音频信号进行信号负值处理,即音频信号对齐装置可以对第一音频信号进行信号负值处理获得第一负值信号,对第二音频信号进行信号负值处理获得第二负值信号。信号负值处理为将音频信号中所有为正值的信号数值与-1相乘,信号负值处理后的音频信号中所有的信号数值均不为正值。
S102,对第一正值信号进行低通滤波处理获得第一处理信号,对第二正值信号进行低通滤波处理获得第二处理信号。
具体的,音频信号对齐装置可以对第一正值信号进行低通滤波处理得到第一处理信号,对第二正值信号进行低通滤波处理得到第二处理信号。经过信号正值处理和低通滤波处理后的音频信号可以保留原有的波形的轮廓,便于信号对齐装置进行下一步的对齐处理,即第一处理信号与第一音频信号的波形轮廓是相同或相似的,第二处理信号与第二音频信号的波形轮廓是相同或相似的。
可以理解的是,若音频信号对齐装置获取的是第一负值信号和第二负值信号,则音频信号对齐装置可以对第一负值信号进行低通滤波处理获得第一处理信号,对第二负值信号进行低通滤波处理获得第二处理信号。
S103,基于第一处理信号和第二处理信号之间的时间差,对第一音频信号和第二音频信号进行对齐处理。
具体的,用户或相关工作人员可以根据所要检测的电子设备的属性和以往的经验,得到第一音频信号和第二音频信号之间的预估时间差,并将预估时间差输入到音频信号对齐装置中,预估时间差可以包括预估提前时间差和预估延迟时间差,预估提前时间差为第二音频信号中的音频内容可能提前第一音频信号中音频内容的时间,预估延迟时间差为第二音频信号中的音频内容相比于第一音频信号中音频内容所延迟的时间。音频信号对齐装置可以根据预估时间差在第一音频信号中获取第一采样片段,例如可以根据在第一音频信号的开头部分截掉长度为预估提前时间差的片段,在结尾部分截掉长度为预估延迟时间差的片段,剩下的就是第一采样片段。由于第一音频信号和第二音频信号中除了包含相同的音频内容的部分,还会有延迟或提前时间对应的片段中的其他内容,而第一采样片段中的极大概率包含就是与第二音频信号相同的音频内容,可以在第二音频信号中找到于第一采样片段相似的片段。音频信号对齐装置就可以根据第一采样片段的信号数值,在第二音频信号中获取与第一采样片段的信号数值存在最大相似值的第二采样片段。可以理解的是音频信号就是表示机械波的信号,信号数值可以为代表音频信号的波长、谐波和波强等数值,第二采样片段与第一采样片段的信号数值存在最大相似值,即第二采样片段与第一采样片段的内容相同。音频信号对齐装置获取第一采样片段在第一音频信号中对应的第一开始时间点,即第一采样片段的在第一音频信号中的起点为第一开始时间点,同样的,音频信号对齐装置获取第二采样片段在第二音频信号中的第二开始时间点。
音频信号对齐装置可以根据第一开始时间点和第二开始时间点之间的时间差,对第一音频信号和第二音频信号进行对齐处理。例如,若第一开始时间点早于第二开始时间点,则表示相同的音频内容在第一音频信号中的出现时间早于第二音频信号,音频信号对齐装置可以获取第一开始时间点和第二开始时间点之间的时间差,在第二音频信号中截掉开头部分长度为时间差的片段,第二音频信号剩下的部分与第一音频信号就是对齐的;若第一开始时间点晚于第二开始时间点,则表示相同的音频内容在第一音频信号中的出现时间晚于第二音频信号,音频信号对齐装置可以在第一音频信号中截掉开头部分长度为时间差的片段,则第一音频信号剩下的部分与第二音频信号就是对齐的。
在本申请实施例中,对第一音频信号和第二音频信号进行信号正值处理获得第一正值信号和第二正值信号,用于保护音频信号中的高频信息,对第一正值信号和第二正值信号进行低通滤波处理获得第一处理信号和第二处理信号,获得音频信号的波形轮廓,基于第一处理信号和第二处理信号之间的时间差,对第一音频信号和第二音频信号进行对齐处理,实现了对不同音频信号进行对齐处理,在保证音频信号对齐的准确性的基础上,通过信号正值处理和低通滤波处理获得音频信号的波形轮廓再进行对齐处理,提升了对齐处理的抗噪性和计算效率,进而提高了音频检测处理结果的准确性。
请参见图4,为本申请实施例提供了一种音频信号对齐方法的流程示意图。如图4所示,本申请实施例的所述方法可以包括以下步骤S201-S208。
S201,对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号。
具体的,由于音频信号在各种电子设备、空气之间传播,第一音频信号和第二音频信号之间会存在时间差,所以需要经由音频信号对齐装置对第一音频信号和第二音频信号进行对齐处理,音频信号对齐装置进行对齐处理的方法可以为在第一音频信号中获取第一采样片段,在第二音频信号中获取与第一采样片段的信号数值存在最大相似值的第二采样片段,根据第一采样片段和第二采样片段之间的时间差来进行对齐处理。由于第一音频信号和第二音频信号的信号波形十分复杂,若直接用第一音频信号和第二音频信号进行信号数值的比较,需要十分复杂计算过程和庞大的计算量,所以可以对拥有与第一音频信号和第二音频信号大致相同的波形轮廓的信号获取第一采样片段和第二采样片段。
音频信号对齐装置可以对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,信号正值处理就是将音频信号中的信号数值都转换为大于零或等于零的信号数值,正值处理后的第一音频信号和第二音频信号可以防止在进行低通滤波处理时被过滤掉高频信息,可以起到保留高频信息的作用,可以理解的是信号正值处理可以为绝对值处理,也可以为偶次方处理,绝对值处理就是将音频信号中的信号数值进行求绝对值处理,偶次方处理就是对音频信号中的信号数值求平方和或偶数次方,同样的,信号正值处理还可以是半波整流处理或希尔伯特变换等。
可选的,除了对音频信号进行信号正值处理,还可以对音频信号进行信号负值处理,即音频信号对齐装置可以对第一音频信号进行信号负值处理获得第一负值信号,对第二音频信号进行信号负值处理获得第二负值信号。信号负值处理为将音频信号中所有为正值的信号数值与-1相乘,信号负值处理后的音频信号中所有的信号数值均不为正值。
可选的,在对第一音频信号和第二音频信号进行信号正值处理之前,还可以利用带通滤波器、高通滤波器或低通滤波器对第一音频信号和第二音频信号进行预滤波处理,用于过滤掉第一音频信号和第二音频信号中多余的噪声,使得对齐处理的结果更加精确,再对预滤波处理后的第一音频信号和第二音频信号进行绝对值处理。音频信号对齐装置可以对第一音频信号进行预滤波处理获得第一预处理信号,对第二音频信号进行预滤波处理获得第二预处理信号,再对第一预处理信号进行信号正值处理获得第一正值信号,对第二预处理信号进行信号正值处理获得第二正值信号。
S202,对第一正值信号进行低通滤波处理获得第一处理信号,对第二正值信号进行低通滤波处理获得第二处理信号。
具体的,音频信号对齐装置可以对第一正值信号进行低通滤波处理得到第一处理信号,对第二正值信号进行低通滤波处理得到第二处理信号。经过信号正值处理和低通滤波处理后的音频信号可以保留原有的波形的轮廓,便于信号对齐装置进行下一步的对齐处理,即第一处理信号与第一音频信号的波形轮廓是相同或相似的,第二处理信号与第二音频信号的波形轮廓是相同或相似的。
可以理解的是,若音频信号对齐装置获取的是第一负值信号和第二负值信号,则音频信号对齐装置可以对第一负值信号进行低通滤波处理获得第一处理信号,对第二负值信号进行低通滤波处理获得第二处理信号。
S203,获取第一音频信号和第二音频信号之间的预估时间差。
具体的,由于音频信号在各种电子设备、空气之间传播,第一音频信号和第二音频信号之间会存在时间差,用户或相关工作人员可以根据所要检测的电子设备的属性和以往的经验,得到第一音频信号和第二音频信号之间的预估时间差,并将预估时间差输入到音频信号对齐装置中,预估时间差可以包括预估提前时间差和预估延迟时间差,预估提前时间差为第二音频信号中的音频内容可能提前第一音频信号中音频内容的时间,预估延迟时间差为第二音频信号中的音频内容相比于第一音频信号中音频内容所延迟的时间。
S204,对第一处理信号进行采样处理获得第一采样信号,对第二处理信号进行采样处理获得第二采样信号。
具体的,音频信号对齐装置若直接对第一处理信号和第二处理信号进行后续的对齐处理,所要处理的数据十分庞大,所以音频信号对齐装置可以对第一处理信号进行采样处理获得第一采样信号,对第二处理信号进行采样处理获得第二采样信号,采样处理指将时间上、幅值上都连续的模拟信号,依据采样频率转换成时间上离散(时间上有固定间隔)、但幅值上仍连续的离散模拟信号。可以理解的是,当采样处理的采样频率大于信号中最高频率的2倍时,采样之后的数字信号能够完整地保留了原始信号中的信息,所以音频信号对齐装置为了使得采样处理获得的信号能够完整保留第一音频信号和第二音频信号中的信息,可以使得采样处理的采样频率大于之前低通滤波处理的截止频率的两倍,所以第一采样信号和第二采样信号可以完整的保留第一处理信号和第二处理信号中的信息。
S205,基于预估时间差在第一采样信号中获取第一采样片段。
具体的,音频信号对齐装置可以根据预估时间差在第一采样信号中获取第一采样片段。音频信号对齐装置获取到的第一音频信号和第二音频信号之间的预估时间差包括,第二音频信号相比于第一音频信号的预估提前时间差和预估延迟时间差,预估提前时间差为第二音频信号中的音频内容可能提前第一音频信号中音频内容的时间,预估延迟时间差为第二音频信号中的音频内容相比于第一音频信号中音频内容所延迟的时间。音频信号对齐装置可以获取第一采样信号中长度为预估提前时间差的开头片段,和第一采样信号中长度为预估延迟时间差的结束片段,然后获取第一采样信号中开头片段和结束片段之间的第一采样片段。
请一并参见图5,为本申请实施例提供了一种第一采样片段获取的举例示意图,用户或相关工作人员可以根据电子设备的属性或以往的经验得到第二音频信号相比于第一音频信号的预估提前时间差和预估延迟时间差,可以理解的是,第一音频信号和第二音频信号中存在相同的音频内容,例如可以为一首歌、一段录音等,在第一音频信号中相同的音频内容的开始时间为T1,而用户或相关工作人员可以预估在第二音频信号中相同的音频内容最早的开始时间为T2,最晚的开始时间为T3,那么音频信号对齐装置可以得到预估提前时间差为(T1-T2),预估延迟时间差为(T3-T1)。所以音频信号对齐装置会获取长度为预估提前时间差的开头片段,和长度为预估延迟时间差的结束片段,第一采样信号中开头片段和结束片段之间的就是第一采样片段,第一采样片段中的内容有极大概率就是与第二采样信号相同的音频内容,可以在第二采样信号中找到于第一采样片段相似的片段,进一步提高了对齐处理的准确性。
S206,基于第一采样片段的长度,并采用滑窗方式在第二采样信号中获取至少两个初始采样片段。
具体的,音频信号对齐装置可以在第二采样信号中,以第二采样信号的第一个采样点为起点,以设定采样点为终点,采用滑窗方式获取与第一采样片段的长度相同的至少两个初始采样片段,设定采样点的采样时间值小于或等于预估提前时间差和预估延迟时间差之和,并且大于第一个采样点的采样时间值。
请一并参见图6,为本申请实施例提供了一种初始采样片段获取的举例示意图,第二采样信号是由第二处理信号经过采样处理得到的,可以理解的是第二采样信号中存在至少两个采样点,并且相邻的两个采样点之间的时间间隔为采样处理的采样周期,音频信号对齐装置以第一个采样点为起点,在第一采样信号中获取长度与第一采样片段相同的初始采样片段1,然后以第二个采样点为起点,获取长度与第一采样片段相同的初始采样片段2,......,以此类推,以第一采样片段的长度为窗口长度,每次滑动一个采样周期的长度,采用滑窗方式在第二采样信号中获取至少两个初始采样片段,直到起点为设定采样点为止,若设定采样点为第二采样信号中第n个采样点,其中0<<(n×采样周期)<<(预估提前时间差+预估延迟时间差),则以设定采样点为起点,获取长度与第一采样片段相同的初始采样片段n,则音频信号对齐装置可以在第二采样信号中获取n个初始采样片段。
S207,获取至少两个初始采样片段中各初始采样片段与第一采样片段的信号数值之间的相似值,将最大相似值对应的初始采样片段确定为第二采样片段。
具体的,每一个采样点都有对应的信号数值,信号数值为可以代表音频信号的波长、谐波和波强等的数值,音频信号对齐装置可以计算所获取到的所有初始采样片段的信号数值和第一采样片段的信号数值之间的相似值,并将最大相似值对应的初始采样片段确定为第二采样片段,即表示第二采样片段与第一采样片段中的内容是相似的或相同的。
可选的,一种计算相似值的方法为:以计算初始采样片段1和第一采样片段之间的相似值为例,若第一采样片段1中有x个采样点,各采样点的信号数值为[a1,a2,a3,…,ax],那么初始采样片段中也有x个采样点,各采样点的信号数值为[b1,b2,b3,…,bx],将初始采样片段1和第一采样片段中采样点的信号数值依次相乘并求和得到S1,再用S1除以初始采样片段中所有采样点的信号数值的平方和,得到相似值C2,公式如下:
S1=(a1×b1)+(a2×b2)+(a3×b3)+…+(ax×bx)
Figure BDA0003306422560000111
以此类推,得到初始采样片段2和第一采样片段之间的相似值C2,一直到初始采样片段n和第一采样片段之间的相似值Cn,然后音频信号对齐装置可以在C1到Cn之间获取一个最大相似值,并将最大相似值所对应的初始采样片段确认为第二采样片段。
S208,获取第一采样片段在第一音频信号中的第一开始时间点,获取第二采样片段在第二音频信号中的第二开始时间点,基于第一开始时间点和第二开始时间点之间的时间差,对第一音频信号和第二音频信号进行对齐处理。
具体的,由于第一采样片段和第二采样片段中的内容是相似或相同的,所以第一采样片段和第二采样片段之间的时间差就是第一音频信号和第二音频信号之间的时间差。音频信号对齐装置可以获取第一采样片段在第一音频信号中的第一开始时间点,获取第二采样片段在第二音频信号中的第二开始时间点,并将第一开始时间和第二开始时间相减,获得第一音频信号和第二音频信号之间的时间差,音频信号对齐装置可以基于时间差对第一音频信号和第二音频信号进行对齐处理。
若第一开始时间点大于第二开始时间点,即第一开始时间点晚于第二开始时间点,则表示相同的音频内容在第一音频信号中的出现时间晚于第二音频信号,音频信号对齐装置可以将第一音频信号中以第一初始时间点为起点,长度为时间差的片段进行丢弃处理,那么第一音频信号剩下的部分与第二音频信号就是对齐的;
若第一开始时间点小于第二开始时间点,即第一开始时间点早于第二开始时间点,则表示相同的音频内容在第一音频信号中的出现时间早于第二音频信号,音频信号对齐装置可以将第二音频信号中以第二初始时间点为起点,长度为时间差的片段进行丢弃处理,那么第二音频信号生成的部分与第一音频信号就是对齐的。
在本申请实施例中,获取第一音频信号和第二音频信号之间的预估时间差,对第一音频信号和第二音频信号进行预滤波处理获得第一预处理信号和第二预处理信号,过滤掉音频信号中多余的噪声,使得对齐处理的结果更加精确,再对第一预处理信号和第二预处理信号进行信号正值处理和低通滤波处理得到第一处理信号和第二处理信号,在保留音频信号中高频信息的情况下,获取音频信号的波形轮廓,提高了对齐处理的抗噪性和计算效率,然后对第一处理信号和第二处理信号进行采样处理获得第一采样信号和第二采样信号,减少对齐处理所需的计算强度,减轻音频信号对齐装置的计算负荷。基于预估时间差在第一采样信号中获取第一采样片段,采用滑窗方式在第二采样信号中获取与第一采样片段长度相同的至少两个初始采样片段,在初始采样片段中获取与第一采样片段的信号数值存在最大相似值的第二采样片段,增加比对片段进一步提高了对齐处理的准确性,获取第一采样片段在第一音频信号中的第一开始时间点,获取第二采样片段在第二音频信号中的第二开始时间点,基于第一开始时间点和第二开始时间点之间的时间差,对第一音频信号和第二音频信号进行对齐处理。实现了对不同音频信号进行对齐处理,在保证音频信号对齐的准确性的基础上,通过信号正值处理和低通滤波处理获得音频信号的波形轮廓再进行对齐处理,提升了对齐处理的抗噪性和计算效率,进而提高了音频检测处理结果的准确性。
请参见图7,为本申请实施例提供了一种音频信号对齐装置的结构示意图。如图7所示,本申请实施例的音频信号对齐装置中包括信号接收器、预滤波模组、正值处理模组、低通滤波器和对齐模组,其中对齐模组包括采样处理器、处理器和信号丢弃模组。
信号接收器和预滤波模组相连接,信号接收器可以用于接收外界的音频信息并转化成第一音频信号和第二音频信号,第一音频信号和第二音频信号是表示机械波的信号,是机械波的波长、强度变化的信息载体,其中音频信号的波长、谐波和波强等可以表示音频内容的音调、音色和音强等。信号接收器可以是直接接收到第一音频信号和第二音频信号,也可以为接收外界的音频后再转换为第一音频信号和第二音频信号。
预滤波模组和正值处理模组相连接,正值处理模组和低通滤波器相连接,低通滤波器和采样处理器相连接,采样处理器和处理器相连接,处理器和信号丢弃模组相连接。
预滤波模组接收到第一音频信号和第二音频信号后,对第一音频信号和第二音频信号进行预滤波处理,得到第一预处理信号和第二预处理信号,用于过滤掉第一音频信号和第二音频信号中多余的噪声,使得对齐处理的结果更加精确,预滤波模组可以为带通滤波器、高通滤波器或低通滤波器,预滤波模组将第一音频信号、第二音频信号、第一预处理信号和第二预处理信号传输至正值处理模组,正值处理模组对第一预处理信号进行信号正值处理得到第一正值信号,对第二预处理信号进行信号正值处理得到第二正值信号,信号正值处理就是将音频信号中的信号数值都转换为大于零或等于零的信号数值,信号正值处理后的第一音频信号和第二音频信号可以防止在进行低通滤波处理时被过滤掉高频信息,可以起到保留高频信息的作用。可以理解的是信号正值处理可以为绝对值处理,也可以为偶次方处理,绝对值处理就是将音频信号中的信号数值进行求绝对值处理,偶次方处理就是对音频信号中的信号数值求平方和或偶数次方,同样的,信号正值处理还可以是半波整流处理或希尔伯特变换等。正值处理模组将第一正值信号、第二正值信号、第一音频信号和第二音频信号传输至低通滤波器。可选的,还可以将正值处理模组替换为负值处理模组,负值处理模组可以对音频信号进行信号负值处理,即可以对第一音频信号进行信号负值处理获得第一负值信号,对第二音频信号进行信号负值处理获得第二负值信号,负值处理模组将第一负值信号、第二负值信号、第一音频信号和第二音频信号传输至低通滤波器,信号负值处理为将音频信号中所有为正值的信号数值与-1相乘,信号负值处理后的音频信号中所有的信号数值均不为正值。低通滤波器可以对第一正值信号进行低通滤波处理得到第一处理信号,对第二正值信号进行低通滤波处理得到第二处理信号。可以理解的是,若低通滤波器所获得的是第一负值信号和第二负值信号,则低通滤波器可以对第一负值信号进行低通滤波处理获得第一处理信号,对第二负值信号进行低通滤波处理获得第二处理信号。
经过信号正值处理和低通滤波处理后的音频信号可以保留原有的波形的轮廓,便于信号对齐装置进行下一步的对齐处理,即第一处理信号与第一音频信号的波形轮廓是相同或相似的,第二处理信号与第二音频信号的波形轮廓是相同或相似的。低通滤波器将第一处理信号、第二处理信号、第一音频信号和第二音频信号传输至采样处理器。
采样处理器可以对第一处理信号进行采样处理获得第一采样信号,对第二处理信号进行采样处理获得第二采样信号,采样处理指将时间上、幅值上都连续的模拟信号,依据采样频率转换成时间上离散(时间上有固定间隔)、但幅值上仍连续的离散模拟信号。可以理解的是,当采样处理的采样频率大于信号中最高频率的2倍时,采样之后的数字信号能够完整地保留了原始信号中的信息,所以音频信号对齐装置为了使得采样处理获得的信号能够完整保留第一音频信号和第二音频信号中的信息,可以使得采样处理的采样频率大于之前低通滤波处理的截止频率的两倍,所以第一采样信号和第二采样信号可以完整的保留第一处理信号和第二处理信号中的信息。采样处理器将第一采样信号、第二采样信号、第一音频信号和第二音频信号传输至处理器。处理器可以获取第一音频信号和第二音频信号之间的预估时间差,预估时间差包括第二音频信号相比于第一音频信号的预估提前时间差和预估延迟时间差,预估提前时间差为第二音频信号中的音频内容可能提前第一音频信号中音频内容的时间,预估延迟时间差为第二音频信号中的音频内容相比于第一音频信号中音频内容所延迟的时间。处理器可以根据预估时间差在第一采样信号中获取第一采样片段,处理器可以获取第一采样信号中长度为预估提前时间差的开头片段,和第一采样信号中长度为预估延迟时间差的结束片段,然后获取第一采样信号中开头片段和结束片段之间的第一采样片段。处理器可以在第二采样信号中,以第二采样信号的第一个采样点为起点,以设定采样点为终点,采用滑窗方式获取与第一采样片段的长度相同的至少两个初始采样片段,设定采样点的采样时间值小于或等于预估提前时间差和预估延迟时间差之和,并且大于第一个采样点的采样时间值。每一个采样点都有对应的信号数值,信号数值为可以代表音频信号的波长、谐波和波强等的数值,处理器可以计算所获取到的所有初始采样片段的信号数值和第一采样片段的信号数值之间的相似值,并将最大相似值对应的初始采样片段确定为第二采样片段,即表示第二采样片段与第一采样片段中的内容是相似的或相同的。由于第一采样片段和第二采样片段中的内容是相似或相同的,所以第一采样片段和第二采样片段之间的时间差就是第一音频信号和第二音频信号之间的时间差。处理器可以获取第一采样片段在第一音频信号中的第一开始时间点,获取第二采样片段在第二音频信号中的第二开始时间点,处理器将第一音频信号、第二音频信号、第一开始时间和第二开始时间传输至信号丢弃模组。
信号丢弃模组将第一开始时间和第二开始时间相减,获得第一音频信号和第二音频信号之间的时间差,并基于时间差对第一音频信号和第二音频信号进行对齐处理。若第一开始时间点大于第二开始时间点,即第一开始时间点晚于第二开始时间点,则表示相同的音频内容在第一音频信号中的出现时间晚于第二音频信号,信号丢弃模组可以将第一音频信号中以第一初始时间点为起点,长度为时间差的片段进行丢弃处理,那么第一音频信号剩下的部分与第二音频信号就是对齐的;若第一开始时间点小于第二开始时间点,即第一开始时间点早于第二开始时间点,则表示相同的音频内容在第一音频信号中的出现时间早于第二音频信号,信号丢弃模组可以将第二音频信号中以第二初始时间点为起点,长度为时间差的片段进行丢弃处理,那么第二音频信号生成的部分与第一音频信号就是对齐的。
在本申请实施例中,获取第一音频信号和第二音频信号之间的预估时间差,对第一音频信号和第二音频信号进行预滤波处理获得第一预处理信号和第二预处理信号,过滤掉音频信号中多余的噪声,使得对齐处理的结果更加精确,再对第一预处理信号和第二预处理信号进行信号正值处理和低通滤波处理得到第一处理信号和第二处理信号,在保留音频信号中高频信息的情况下,获取音频信号的波形轮廓,提高了对齐处理的抗噪性和计算效率,然后对第一处理信号和第二处理信号进行采样处理获得第一采样信号和第二采样信号,减少对齐处理所需的计算强度,减轻音频信号对齐装置的计算负荷。基于预估时间差在第一采样信号中获取第一采样片段,采用滑窗方式在第二采样信号中获取与第一采样片段长度相同的至少两个初始采样片段,在初始采样片段中获取与第一采样片段的信号数值存在最大相似值的第二采样片段,增加比对片段进一步提高了对齐处理的准确性,获取第一采样片段在第一音频信号中的第一开始时间点,获取第二采样片段在第二音频信号中的第二开始时间点,基于第一开始时间点和第二开始时间点之间的时间差,对第一音频信号和第二音频信号进行对齐处理。实现了对不同音频信号进行对齐处理,在保证音频信号对齐的准确性的基础上,通过信号正值处理和低通滤波处理获得音频信号的波形轮廓再进行对齐处理,提升了对齐处理的抗噪性和计算效率,进而提高了音频检测处理结果的准确性。
下面将结合附图8-附图9,对本申请实施例提供的音频信号对齐装置进行详细介绍。需要说明的是,附图8-附图9中的音频信号对齐装置,用于执行本申请图3和图4所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请图3和图4所示的实施例。
请参见图8,其示出了本申请一个示例性实施例提供的音频信号对齐装置的结构示意图。该音频信号对齐装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置1包括正值处理模块11、滤波处理模块12、对齐处理模块13。
正值处理模块11,用于对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,所述第一音频信号与所述第二音频信号具有相同的音频内容;
可选的,所述正值处理模块11具体用于对第一音频信号进行绝对值处理获得第一正值信号,对第二音频信号进行绝对值处理获得第二正值信号,或,
对第一音频信号进行偶次方处理获得第一正值信号,对第二音频信号进行偶次方处理获得第二正值信号,或,
对第一音频信号进行半波整流处理获得第一正值信号,对第二音频信号进行半波整流处理获得第二正值信号,或,
对第一音频信号进行希尔伯特变换获得第一正值信号,对第二音频信号进行希尔伯特变换获得第二正值信号。
可选的,所述正值处理模块11具体用于对第一音频信号进行预滤波处理获得第一预处理信号,对第二音频信号进行预滤波处理获得第二预处理信号;
对所述第一预处理信号进行信号正值处理获得第一正值信号,对所述第二预处理信号进行信号正值处理获得第二正值信号。
滤波处理模块12,用于对所述第一正值信号进行低通滤波处理获得第一处理信号,对所述第二正值信号进行低通滤波处理获得第二处理信号;
对齐处理模块13,用于基于所述第一处理信号和所述第二处理信号之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
可选的,具体的,请一并参见图9,为本申请实施例提供了一种对齐处理模块的结构示意图。所图9所示,所述对齐处理模块13可以包括:
片段获取单元131,用于在所述第一处理信号中获取第一采样片段,在所述第二处理信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段;
可选的,所述片段获取单元131具体用于获取所述第一音频信号和所述第二音频信号之间的预估时间差;
基于所述预估时间差在所述第一处理信号中获取第一采样片段,在所述第二处理信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段。
可选的,所述片段获取单元131具体用于对第一处理信号进行采样处理获得第一采样信号,对第二处理信号进行采样处理获得第二采样信号,采样处理的采样频率大于低通滤波处理的截止频率的两倍;
基于所述预估时间差在所述第一采样信号中获取第一采样片段;
在所述第二采样信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段。
可选的,所述片段获取单元131具体用于所述获取基于所述预估时间差在所述第一采样信号中获取第一采样片段,包括:
获取所述第一采样信号中长度为所述预估提前时间差的开头片段,和所述第一采样信号中长度为所述预估延迟时间差的结束片段;
获取所述第一采样信号中所述开头片段和所述结束片段之间的第一采样片段。
可选的,所述片段获取单元131具体用于基于所述第一采样片段的长度,并采用滑窗方式在所述第二采样信号中获取至少两个初始采样片段;
获取所述至少两个初始采样片段中各初始采样片段与所述第一采样片段的信号数值之间的相似值;
将最大相似值对应的初始采样片段确定为第二采样片段。
可选的,所述片段获取单元131具体用于在所述第二采样信号中,以第一个采样点为起点,以设定采样点为终点,采用滑窗方式获取与所述第一采样片段的长度相同的至少两个初始采样片段;
所述设定采样点的采样时间值小于或等于所述预估提前时间差和所述预估延迟时间差之和,且大于第一个采样点的采样时间值。
对齐处理单元132,用于基于所述第一采样片段和所述第二采样片段之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
可选的,所述对齐处理单元132具体用于获取所述第一采样片段在所述第一音频信号中的第一开始时间点,获取所述第二采样片段在所述第二音频信号中的第二开始时间点;
基于所述第一开始时间点和所述第二开始时间点之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
可选的,所述对齐处理单元132具体用于将所述第一开始时间点和所述第二开始时间点相减,获得时间差;
若所述第一开始时间点大于所述第二开始时间点,则将所述第一音频信号中以第一初始时间点为起点,长度为所述时间差的片段进行丢弃处理;
若所述第一开始时间点小于所述第二开始时间点,则将所述第二音频信号中以第二初始时间点为起点,长度为所述时间差的片段进行丢弃处理。
在本实施例中,获取第一音频信号和第二音频信号之间的预估时间差,对第一音频信号和第二音频信号进行预滤波处理获得第一预处理信号和第二预处理信号,过滤掉音频信号中多余的噪声,使得对齐处理的结果更加精确,再对第一预处理信号和第二预处理信号进行信号正值处理和低通滤波处理得到第一处理信号和第二处理信号,在保留音频信号中高频信息的情况下,获取音频信号的波形轮廓,提高了对齐处理的抗噪性和计算效率,然后对第一处理信号和第二处理信号进行采样处理获得第一采样信号和第二采样信号,减少对齐处理所需的计算强度,减轻音频信号对齐装置的计算负荷。基于所述预估时间差在第一采样信号中获取第一采样片段,采用滑窗方式在第二采样信号中获取与第一采样片段长度相同的至少两个初始采样片段,在初始采样片段中获取与第一采样片段的信号数值存在最大相似值的第二采样片段,增加比对片段进一步提高了对齐处理的准确性,获取所述第一采样片段在所述第一音频信号中的第一开始时间点,获取所述第二采样片段在所述第二音频信号中的第二开始时间点,基于所述第一开始时间点和所述第二开始时间点之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。实现了对不同音频信号进行对齐处理,在保证音频信号对齐的准确性的基础上,通过信号正值处理和低通滤波处理获得音频信号的波形轮廓再进行对齐处理,提升了对齐处理的抗噪性和计算效率,进而提高了音频检测处理结果的准确性。
需要说明的是,上述实施例提供的音频信号对齐装置在执行音频信号对齐方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频信号对齐装置与音频信号对齐方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图7所示实施例的所述音频信号对齐方法,具体执行过程可以参见图1-图7所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1-图7所示实施例的所述音频信号对齐方法,具体执行过程可以参见图1-图7所示实施例的具体说明,在此不进行赘述。
请参考图10,其示出了本申请一个示例性实施例提供的电子设备的结构示意图。本申请中的电子设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行终端100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,DSP)、现场可编程门阵列(field-programmable gate array,FPGA)、可编程逻辑阵列(programmable logicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessing unit,CPU)、图像处理器(graphics processing unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户页面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(random Access Memory,RAM),也可以包括只读存储器(read-only memory,ROM)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等,该操作系统可以是安卓(Android)系统,包括基于Android系统深度开发的系统、苹果公司开发的IOS系统,包括基于IOS系统深度开发的系统或其它系统。
存储器120可分为操作系统空间和用户空间,操作系统即运行于操作系统空间,原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果,操作系统针对不同第三方应用程序为其分配相应的系统资源。然而,同一第三方应用程序中不同应用场景对系统资源的需求也存在差异,比如,在本地资源加载场景下,第三方应用程序对磁盘读取速度的要求较高;在动画渲染场景下,第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立,操作系统往往不能及时感知第三方应用程序当前的应用场景,导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。
为了使操作系统能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作系统之间的数据通信,使得操作系统能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的系统资源适配。
其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于电子设备和扬声器等。在一个示例中,输入装置130和输出装置140可以合设,输入装置130和输出装置140为触摸显示屏。
所述触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本申请实施例对此不加以限定。
除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity,WiFi)模块、电源、蓝牙模块等部件,在此不再赘述。
在图10所示的电子设备中,处理器110可以用于调用存储器120中存储的音频信号对齐应用程序,并具体执行以下操作:
对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,所述第一音频信号与所述第二音频信号具有相同的音频内容;
对所述第一正值信号进行低通滤波处理获得第一处理信号,对所述第二正值信号进行低通滤波处理获得第二处理信号;
基于所述第一处理信号和所述第二处理信号之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
在一个实施例中,所述处理器110在执行对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号时,具体执行以下操作:
对第一音频信号进行绝对值处理获得第一正值信号,对第二音频信号进行绝对值处理获得第二正值信号,或,
对第一音频信号进行偶次方处理获得第一正值信号,对第二音频信号进行偶次方处理获得第二正值信号,或,
对第一音频信号进行半波整流处理获得第一正值信号,对第二音频信号进行半波整流处理获得第二正值信号,或,
对第一音频信号进行希尔伯特变换获得第一正值信号,对第二音频信号进行希尔伯特变换获得第二正值信号。
在一个实施例中,所述处理器110在执行对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号时,具体执行以下操作:
对第一音频信号进行预滤波处理获得第一预处理信号,对第二音频信号进行预滤波处理获得第二预处理信号;
对所述第一预处理信号进行信号正值处理获得第一正值信号,对所述第二预处理信号进行信号正值处理获得第二正值信号。
在一个实施例中,所述处理器110在执行基于所述第一处理信号和所述第二处理信号之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理时,具体执行以下操作:
在所述第一处理信号中获取第一采样片段,在所述第二处理信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段;
基于所述第一采样片段和所述第二采样片段之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
在一个实施例中,所述处理器110在执行在所述第一处理信号中获取第一采样片段,在所述第二处理信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段时,具体执行以下操作:
获取所述第一音频信号和所述第二音频信号之间的预估时间差;
基于所述预估时间差在所述第一处理信号中获取第一采样片段,在所述第二处理信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段。
在一个实施例中,所述处理器110在执行基于所述预估时间差在所述第一处理信号中获取第一采样片段,在所述第二处理信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段时,具体执行以下操作:
对第一处理信号进行采样处理获得第一采样信号,对第二处理信号进行采样处理获得第二采样信号,采样处理的采样频率大于低通滤波处理的截止频率的两倍;
基于所述预估时间差在所述第一采样信号中获取第一采样片段;
在所述第二采样信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段。
在一个实施例中,所述处理器110在执行获取基于所述预估时间差在所述第一采样信号中获取第一采样片段时,具体执行以下操作:
获取所述第一采样信号中长度为所述预估提前时间差的开头片段,和所述第一采样信号中长度为所述预估延迟时间差的结束片段,所述预估时间差包括所述第二音频信号相比于所述第一音频信号的预估提前时间差和预估延迟时间差;
获取所述第一采样信号中所述开头片段和所述结束片段之间的第一采样片段。
在一个实施例中,所述处理器110在执行在所述第二采样信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段时,具体执行以下操作:
基于所述第一采样片段的长度,并采用滑窗方式在所述第二采样信号中获取至少两个初始采样片段;
获取所述至少两个初始采样片段中各初始采样片段与所述第一采样片段的信号数值之间的相似值;
将最大相似值对应的初始采样片段确定为第二采样片段。
在一个实施例中,所述处理器110在执行基于所述第一采样片段的长度,并采用滑窗方式在所述第二采样信号中获取至少两个初始采样片段时,具体执行以下操作:
在所述第二采样信号中,以第一个采样点为起点,以设定采样点为终点,采用滑窗方式获取与所述第一采样片段的长度相同的至少两个初始采样片段;
所述设定采样点的采样时间值小于或等于所述预估提前时间差和所述预估延迟时间差之和,且大于第一个采样点的采样时间值。
在一个实施例中,所述处理器110在执行基于所述第一采样片段和所述第二采样片段之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理时,具体执行以下操作:
获取所述第一采样片段在所述第一音频信号中的第一开始时间点,获取所述第二采样片段在所述第二音频信号中的第二开始时间点;
基于所述第一开始时间点和所述第二开始时间点之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
在一个实施例中,所述处理器110在执行基于所述第一开始时间点和所述第二开始时间点之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理时,具体执行以下操作:
将所述第一开始时间点和所述第二开始时间点相减,获得时间差;
若所述第一开始时间点大于所述第二开始时间点,则将所述第一音频信号中以第一初始时间点为起点,长度为所述时间差的片段进行丢弃处理;
若所述第一开始时间点小于所述第二开始时间点,则将所述第二音频信号中以第二初始时间点为起点,长度为所述时间差的片段进行丢弃处理。
在本实施例中,获取第一音频信号和第二音频信号之间的预估时间差,对第一音频信号和第二音频信号进行预滤波处理获得第一预处理信号和第二预处理信号,过滤掉音频信号中多余的噪声,使得对齐处理的结果更加精确,再对第一预处理信号和第二预处理信号进行信号正值处理和低通滤波处理得到第一处理信号和第二处理信号,在保留音频信号中高频信息的情况下,获取音频信号的波形轮廓,提高了对齐处理的抗噪性和计算效率,然后对第一处理信号和第二处理信号进行采样处理获得第一采样信号和第二采样信号,减少对齐处理所需的计算强度,减轻音频信号对齐装置的计算负荷。基于所述预估时间差在第一采样信号中获取第一采样片段,采用滑窗方式在第二采样信号中获取与第一采样片段长度相同的至少两个初始采样片段,在初始采样片段中获取与第一采样片段的信号数值存在最大相似值的第二采样片段,增加比对片段进一步提高了对齐处理的准确性,获取所述第一采样片段在所述第一音频信号中的第一开始时间点,获取所述第二采样片段在所述第二音频信号中的第二开始时间点,基于所述第一开始时间点和所述第二开始时间点之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。实现了对不同音频信号进行对齐处理,在保证音频信号对齐的准确性的基础上,通过信号正值处理和低通滤波处理获得音频信号的波形轮廓再进行对齐处理,提升了对齐处理的抗噪性和计算效率,进而提高了音频检测处理结果的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种音频信号对齐方法,其特征在于,所述方法包括:
对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,所述第一音频信号与所述第二音频信号具有相同的音频内容;
对所述第一正值信号进行低通滤波处理获得第一处理信号,对所述第二正值信号进行低通滤波处理获得第二处理信号;
基于所述第一处理信号和所述第二处理信号之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
2.根据权利要求1所述的方法,其特征在于,所述对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,包括:
对第一音频信号进行绝对值处理获得第一正值信号,对第二音频信号进行绝对值处理获得第二正值信号,或,
对第一音频信号进行偶次方处理获得第一正值信号,对第二音频信号进行偶次方处理获得第二正值信号,或,
对第一音频信号进行半波整流处理获得第一正值信号,对第二音频信号进行半波整流处理获得第二正值信号,或,
对第一音频信号进行希尔伯特变换获得第一正值信号,对第二音频信号进行希尔伯特变换获得第二正值信号。
3.根据权利要求1所述的方法,其特征在于,所述对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,包括:
对第一音频信号进行预滤波处理获得第一预处理信号,对第二音频信号进行预滤波处理获得第二预处理信号;
对所述第一预处理信号进行信号正值处理获得第一正值信号,对所述第二预处理信号进行信号正值处理获得第二正值信号。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一处理信号和所述第二处理信号之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理,包括:
在所述第一处理信号中获取第一采样片段,在所述第二处理信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段;
基于所述第一采样片段和所述第二采样片段之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
5.根据权利要求4所述的方法,其特征在于,所述在所述第一处理信号中获取第一采样片段,在所述第二处理信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段,包括:
获取所述第一音频信号和所述第二音频信号之间的预估时间差;
基于所述预估时间差在所述第一处理信号中获取第一采样片段,在所述第二处理信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段。
6.根据权利要求5所述的方法,其特征在于,所述基于所述预估时间差在所述第一处理信号中获取第一采样片段,在所述第二处理信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段,包括:
对第一处理信号进行采样处理获得第一采样信号,对第二处理信号进行采样处理获得第二采样信号,采样处理的采样频率大于低通滤波处理的截止频率的两倍;
基于所述预估时间差在所述第一采样信号中获取第一采样片段;
在所述第二采样信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段。
7.根据权利要求6所述的方法,其特征在于,所述预估时间差包括所述第二音频信号相比于所述第一音频信号的预估提前时间差和预估延迟时间差;
所述获取基于所述预估时间差在所述第一采样信号中获取第一采样片段,包括:
获取所述第一采样信号中长度为所述预估提前时间差的开头片段,和所述第一采样信号中长度为所述预估延迟时间差的结束片段;
获取所述第一采样信号中所述开头片段和所述结束片段之间的第一采样片段。
8.根据权利要求7所述的方法,其特征在于,所述在所述第二采样信号中获取与所述第一采样片段的信号数值存在最大相似值的第二采样片段,包括:
基于所述第一采样片段的长度,并采用滑窗方式在所述第二采样信号中获取至少两个初始采样片段;
获取所述至少两个初始采样片段中各初始采样片段与所述第一采样片段的信号数值之间的相似值;
将最大相似值对应的初始采样片段确定为第二采样片段。
9.根据权利要求8所述的方法,其特征在于,所述基于所述第一采样片段的长度,并采用滑窗方式在所述第二采样信号中获取至少两个初始采样片段,包括:
在所述第二采样信号中,以第一个采样点为起点,以设定采样点为终点,采用滑窗方式获取与所述第一采样片段的长度相同的至少两个初始采样片段;
所述设定采样点的采样时间值小于或等于所述预估提前时间差和所述预估延迟时间差之和,且大于第一个采样点的采样时间值。
10.根据权利要求4所述的方法,其特征在于,所述基于所述第一采样片段和所述第二采样片段之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理,包括:
获取所述第一采样片段在所述第一音频信号中的第一开始时间点,获取所述第二采样片段在所述第二音频信号中的第二开始时间点;
基于所述第一开始时间点和所述第二开始时间点之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
11.根据权利要求10所述的方法,其特征在于,所述基于所述第一开始时间点和所述第二开始时间点之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理,包括:
将所述第一开始时间点和所述第二开始时间点相减,获得时间差;
若所述第一开始时间点大于所述第二开始时间点,则将所述第一音频信号中以第一初始时间点为起点,长度为所述时间差的片段进行丢弃处理;
若所述第一开始时间点小于所述第二开始时间点,则将所述第二音频信号中以第二初始时间点为起点,长度为所述时间差的片段进行丢弃处理。
12.一种音频信号对齐装置,其特征在于,所述装置包括:正值处理模组、低通滤波器和对齐模组;其中,
所述低通滤波器的一端和所述正值处理模组相连接,所述低通滤波器的另一端和所述对齐模组相连接;
所述正值处理模组,用于对第一音频信号进行信号正值处理获得第一正值信号,对第二音频信号进行信号正值处理获得第二正值信号,将所述第一音频信号、所述第二音频信号、所述第一正值信号和所述第二正值信号传输至所述低通滤波器,所述第一音频信号与所述第二音频信号具有相同的音频内容;
所述低通滤波器,用于在对所述第一正值信号进行低通滤波处理获得第一处理信号,对所述第二正值信号进行低通滤波处理获得第二处理信号,将所述第一音频信号、所述第二音频信号、所述第一处理信号和所述第二处理信号传输至所述对齐模组;
所述对齐模组,用于基于所述第一处理信号和所述第二处理信号之间的时间差,对所述第一音频信号和所述第二音频信号进行对齐处理。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~11任意一项的方法步骤。
14.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~11任意一项的方法步骤。
CN202111204813.9A 2021-10-15 2021-10-15 一种音频信号对齐方法、装置、存储介质及电子设备 Pending CN115985333A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111204813.9A CN115985333A (zh) 2021-10-15 2021-10-15 一种音频信号对齐方法、装置、存储介质及电子设备
PCT/CN2022/125471 WO2023061496A1 (zh) 2021-10-15 2022-10-14 一种音频信号对齐方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111204813.9A CN115985333A (zh) 2021-10-15 2021-10-15 一种音频信号对齐方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115985333A true CN115985333A (zh) 2023-04-18

Family

ID=85964854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111204813.9A Pending CN115985333A (zh) 2021-10-15 2021-10-15 一种音频信号对齐方法、装置、存储介质及电子设备

Country Status (2)

Country Link
CN (1) CN115985333A (zh)
WO (1) WO2023061496A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117476027A (zh) * 2023-12-28 2024-01-30 南京硅基智能科技有限公司 语音转换方法及装置、存储介质、电子装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2431839B (en) * 2005-10-28 2010-05-19 Sony Uk Ltd Audio processing
CN103685795B (zh) * 2013-12-13 2016-09-07 广州市百果园网络科技有限公司 网络语音通信中的数据对齐方法和系统
US9832007B2 (en) * 2016-04-14 2017-11-28 Ibiquity Digital Corporation Time-alignment measurement for hybrid HD radio™ technology
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
CN110085259B (zh) * 2019-05-07 2021-09-17 国家广播电视总局中央广播电视发射二台 音频比对方法、装置和设备
CN112216294B (zh) * 2020-08-31 2024-03-19 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117476027A (zh) * 2023-12-28 2024-01-30 南京硅基智能科技有限公司 语音转换方法及装置、存储介质、电子装置
CN117476027B (zh) * 2023-12-28 2024-04-23 南京硅基智能科技有限公司 语音转换方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
WO2023061496A1 (zh) 2023-04-20

Similar Documents

Publication Publication Date Title
CN109670074B (zh) 一种节奏点识别方法、装置、电子设备及存储介质
CN107112012B (zh) 用于音频处理的方法和系统及计算机可读存储介质
CN109087669B (zh) 音频相似度检测方法、装置、存储介质及计算机设备
CN107068161B (zh) 基于人工智能的语音降噪方法、装置和计算机设备
CN108665895B (zh) 用于处理信息的方法、装置和系统
CN110265064B (zh) 音频爆音检测方法、装置和存储介质
CN106782613B (zh) 信号检测方法及装置
US10629226B1 (en) Acoustic signal processing with voice activity detector having processor in an idle state
JP2008185834A (ja) 音響判定方法、音響判定装置及びコンピュータプログラム
CN110070884B (zh) 音频起始点检测方法和装置
CN112309414B (zh) 基于音频编解码的主动降噪方法、耳机及电子设备
CN106165015B (zh) 用于促进基于加水印的回声管理的装置和方法
CN109756818B (zh) 双麦克风降噪方法、装置、存储介质及电子设备
CN110111811B (zh) 音频信号检测方法、装置和存储介质
CN109817241B (zh) 音频处理方法、装置及存储介质
CN111429942B (zh) 一种音频数据处理方法、装置、电子设备及存储介质
WO2023061496A1 (zh) 一种音频信号对齐方法、装置、存储介质及电子设备
CN110070885B (zh) 音频起始点检测方法和装置
CN110970051A (zh) 语音数据采集方法、终端及可读存储介质
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
CN110085214B (zh) 音频起始点检测方法和装置
CN113674752A (zh) 音频信号的降噪方法、装置、可读介质和电子设备
CN113316075B (zh) 一种啸叫检测方法、装置及电子设备
CN110335623B (zh) 音频数据处理方法及装置
CN104581538A (zh) 消除噪音的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination