CN112420077B

CN112420077B - 声音定位方法和装置、测试方法和系统、设备及存储介质

Info

Publication number: CN112420077B
Application number: CN202011302603.9A
Authority: CN
Inventors: 袁峰
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-08-16
Anticipated expiration: 2040-11-19
Also published as: CN112420077A

Abstract

本发明公开了一种声音定位方法和装置、测试方法和系统、设备及存储介质。定位方法用于定位声音信号中有效声音的起始位置，声音信号还包括分别位于有效声音前后的两段相同的声音标签，方法包括：设置时间窗的参数，包括前窗后窗的宽度和间距，宽度等于声音标签的时长，间距等于有效声音的时长与声音标签的时长之和；在声音信号内多次移动时间窗，每次移动后均计算通过时间窗截取的两段局部声音信号之间的相似度；获取相似度的最大值；定位有效声音的起始位置，有效声音的起始位置为最大值对应的时间窗中前窗的结束位置。本发明在测试应用中将时间定时构建在激励音源内部，只需要对收音器件录制到的声音信号做运算，就能精准地实现有效声音的定位。

Description

声音定位方法和装置、测试方法和系统、设备及存储介质

技术领域

本发明属于音频处理领域，尤其涉及一种声音定位方法和装置、测试方法和系统、设备及存储介质。

背景技术

在对音频器件或音频系统的测试测量中，一个完整的测试系统如下：测试仪器产生音频播放文件激励被测音频器件，使被测音频器件发声，同时再通过收音器件(标准件)收音，录制音频录制文件。为了使录制到的音频文件的声音起始位置能被精确定位，传统的技术是由同一个测试仪器控制整个测试系统，使得文件的播放和文件的录制能做到时间同步，通过播放的文件的声音起始位置确定录制的文件的声音起始位置，进而通过对录制文件的分析，获得音频器件的频率响应，总谐波失真，异音等信息。

上述传统的技术存在下面的几个问题，对测试系统的构建有很大的限制：

1、通过被测音频器件播放的声音与收音器件录制到的文件需要在时间上做精确同步；

2、播放与录制通路的信号处理路径的时间延时需要被精确估计；

3、从被测音频器件到收音器件的声音传播路径的延时需要被精确估计；

上面的这些限制，导致构建整个测试系统会比较复杂，同时可变的因素较多(时间上不同步，延时估计不准确，声音传播路径长短)，各种变量都会影响测试的精准度。

发明内容

本发明要解决的技术问题是为了克服现有技术中需要播放的声音和录制的声音做到精确同步才能确定录制声音的起始位置而导致测试系统复杂、同时可变因素角度、需要精准控制的缺陷，提供一种声音定位方法和装置、测试方法和系统、设备及存储介质。

本发明是通过以下技术方案解决上述技术问题的：

本发明提供一种声音定位方法，用于定位声音信号中有效声音的起始位置和/或结束位置，所述声音信号还包括分别位于所述有效声音之前和之后的两段相同的声音标签，所述声音定位方法包括：

设置时间窗的参数，所述时间窗包括前窗和后窗，所述参数包括所述前窗的宽度、所述后窗的宽度和所述前窗与所述后窗之间的间距，所述前窗和所述后窗的宽度等于所述声音标签的时长，所述间距等于所述有效声音的时长与所述声音标签的时长之和；

在所述声音信号内多次移动所述时间窗，每次移动后均计算通过所述时间窗从所述声音信号中截取的两段局部声音信号之间的相似度；

获取计算所得的相似度中的最大值；

定位所述有效声音的起始位置和/或结束位置，所述有效声音的起始位置为所述最大值对应的时间窗中前窗的结束位置，所述有效声音的结束位置为所述最大值对应的时间窗中后窗的起始位置。

较佳地，在所述声音信号内多次移动所述时间窗，具体包括：

从所述前窗的起始位置对准所述声音信号的起始位置开始，逐步向后移动所述时间窗，直至所述后窗的结束位置到达所述声音信号的结束位置。

较佳地，每次移动的步进为1/Fs，其中Fs为所述声音信号的采样频率。

较佳地，所述声音定位方法还包括：

在所述有效声音的前后分别增加所述声音标签，以生成原始声音信号，所述原始声音信号经发声器件播放，播放的声音经收音器件收录，形成需要被定位有效声音的起始位置和/或结束位置的声音信号。

本发明还提供一种声音定位装置，用于定位声音信号中有效声音的起始位置和/或结束位置，所述声音信号还包括分别位于所述有效声音之前和之后的两段相同的声音标签，所述声音定位装置包括：

参数设置模块，用于设置时间窗的参数，所述时间窗包括前窗和后窗，所述参数包括所述前窗的宽度、所述后窗的宽度和所述前窗与所述后窗之间的间距，所述前窗和所述后窗的宽度等于所述声音标签的时长，所述间距等于所述有效声音的时长与所述声音标签的时长之和；

时间窗移动计算模块，用于在所述声音信号内多次移动所述时间窗，每次移动后均计算通过所述时间窗从所述声音信号中截取的两段局部声音信号之间的相似度；

最大相似度获取模块，用于获取计算所得的相似度中的最大值；

有效声音定位模块，用于定位所述有效声音的起始位置和/或结束位置，所述有效声音的起始位置为所述最大值对应的时间窗中前窗的结束位置，所述有效声音的结束位置为所述最大值对应的时间窗中后窗的起始位置。

较佳地，所述声音定位装置还包括：

音频生成模块，用于在所述有效声音的前后分别增加所述声音标签，以生成原始声音信号，所述原始声音信号经发声器件播放，播放的声音经收音器件收录，形成需要被定位有效声音的起始位置和/或结束位置的声音信号。

本发明还提供一种音频器件测试方法，所述音频器件测试方法包括：

通过被测发声器件播放声音信号，所述声音信号包括有效声音以及分别位于所述有效声音之前和之后的两段相同的声音标签；

通过标准收音器件收录所述声音信号；

利用如上所述的声音定位方法定位收录的所述声音信号中的有效声音；

通过定位的有效声音，分析所述被测发声器件的发音性能。

通过标准发声器件播放声音信号，所述声音信号包括有效声音以及分别位于所述有效声音之前和之后的两段相同的声音标签；

通过被测收音器件收录所述声音信号；

通过定位的有效声音，分析所述被测收音器件的收音性能。

本发明还提供一种音频器件测试系统，所述音频器件测试系统包括：

播放控制模块，用于控制被测发声器件播放声音信号，所述声音信号包括有效声音以及分别位于所述有效声音之前和之后的两段相同的声音标签；

标准收音器件，用于收录所述声音信号；

声音定位装置，用于定位收录的所述声音信号中的有效声音；

第一测试分析模块，用于通过定位的有效声音，分析所述被测发声器件的发音性能。

标准发声器件，用于播放声音信号，所述声音信号包括有效声音以及分别位于所述有效声音之前和之后的两段相同的声音标签；

收音控制模块，用于控制被测收音器件收录所述声音信号；

第二测试分析模块，用于通过定位的有效声音，分析所述被测收音器件的收音性能。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的声音定位方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的声音定位方法的步骤。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：本发明在有效声音前后增加声音标签，通过度量声音标签的相似度来定位有效声音。在测试应用中将时间定时构建在激励音源内部，只需要对收音器件录制到的声音信号做运算，就能精准地实现有效声音的定位，规避了非理想音频系统对有效声音定位的影响，极大的简化了测试系统的复杂度，提高了测试精准度。

附图说明

图1为本发明较佳实施例1的一种声音定位方法的流程图；

图2为一种声音信号的波形图；

图3为时间窗的移动示意图；

图4为在声音信号中截取有效声音的示意图；

图5为本发明较佳实施例1的一种声音定位方法进一步细化后的流程图；

图6为本发明较佳实施例2的一种以发声器件为测试对象的音频器件测试方法的流程图；

图7为本发明较佳实施例2的一种以收音器件为测试对象的音频器件测试方法的流程图；

图8为本发明较佳实施例3的一种声音定位装置的示意框图；

图9为本发明较佳实施例4的一种以发声器件为测试对象的音频器件测试装置的示意框图；

图10为本发明较佳实施例4的一种以收音器件为测试对象的音频器件测试装置的示意框图；

图11为本发明较佳实施例5的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

图1示出了本实施例的一种声音定位方法，用于定位声音信号中有效声音的起始位置和/或结束位置。图2示出了本实施例的一种声音信号。声音信号包括了有效声音，以及分别位于有效声音之前和之后的两段相同的声音标签。所述的两段相同的声音标签是指该两段声音标签的时长相同、频率相同且幅度相同。两段声音标签与有效声音相接，前一端声音标签的结束位置即为有效声音的起始位置，后一段声音标签的起始位置即为有效声音的结束位置。除了声音标签和有效声音，声音信号还可能包括噪音。图1中，横坐标表示采样点，纵坐标表示幅度。下表给出了一种可选的声音标签、有效声音的参数设置。

类型	频率	时长	幅度
				噪音	无	未知	未知
声音标签	3KHz	0.1秒	0dB
				有效声音	20～10KHz	1秒	-3dB

需要说明的是，上表中的频率、时长、幅度的参数值，只是举例说明，这些参数可以被设置为其他数值。

参见图1，声音定位方法包括：

步骤101：设置时间窗的参数。时间窗包括前窗和后窗，参数包括前窗的宽度、后窗的宽度和前窗与后窗之间的间距，前窗和后窗的宽度等于声音标签的时长，前窗与后窗之间的间距(即前窗的起始位置与后窗的起始位置之间的距离，或前窗的结束位置与后窗的结束位置之间的距离)等于有效声音的时长与声音标签的时长之和。以上表为例，前窗和后窗的宽度应设置为0.1秒，前窗与后窗之间的间距应设置为1.1秒。设置后，参数是固定的，在定位过程中不再变化。

步骤102：在声音信号内多次移动时间窗，每次移动后均计算通过时间窗从声音信号中截取的两段局部声音信号之间的相似度。图3示意性的示出了时间窗的移动过程，从时间窗1移动至时间窗2，在移动过程中前窗和后窗的宽度不变，前窗与后窗之间的间距不变。计算前窗和后窗所截取的两段局部声音信号之间的相似度可以采用本领域内常用的计算公式或手段实现。

步骤103：获取计算所得的相似度中的最大值。其中，相似度最大值对应的时间窗所截取的两段局部声音信号即为两个声音标签，前后窗所在的位置即为两个声音标签的位置。

步骤104：定位有效声音的起始位置。有效声音的起始位置为最大值对应的时间窗中前窗的结束位置。或，定位有效声音的结束位置，有效声音的结束位置为最大值对应的时间窗中后窗的起始位置。在一种可替代的方式中，可以通过最大值对应的前窗的结束位置定位有效声音的起始位置，从起始位置向后推有效声音的时长即可定位到有效声音的结束位置。在另一种可替代的方式中，可以通过最大值对应的后窗的起始位置定位有效声音的结束位置，从结束位置向前推有效声音的时长即可定位到有效声音的起始位置。图4在声音信号中框出了有效声音并对有效声音进行了截取。

步骤102中，在声音信号内多次移动时间窗，具体可以包括：从前窗的起始位置对准声音信号的起始位置开始，逐步向后移动时间窗，直至后窗的结束位置到达声音信号的结束位置。为了使时间窗可以划过整段声音信号，确保找到声音信号中的声音标签，时间窗每次移动的步进为1/Fs秒，其中Fs为声音信号的采样频率。由此，如图5所示，步骤102具体可以包括：

步骤1021：将前窗的起始位置对准声音信号的起始位置；

步骤1022：通过前窗和后窗从声音信号截取两段局部声音信号；

步骤1023：计算两段局部声音信号之间的相似度；

步骤1024：向后移动时间窗1/Fs秒；

步骤1025：通过前窗和后窗从声音信号截取两段局部声音信号；

步骤1026：计算两段局部声音信号之间的相似度；

步骤1027：判断后窗是否已经到达了声音信号的结束位置，若是，则执行步骤103，若否，则执行步骤1024。

本实施例的声音定位方法还可以进一步包括在步骤101之前，在有效声音的前后增加声音标签，以生成原始声音信号的步骤。原始声音信号经发声器件播放，播放的声音经收音器件收录(收音、录制)，形成需要被定位有效声音的起始位置和/或结束位置的声音信号。

本实施例的声音定位方法在有效声音前后分别增加声音标签，通过度量声音标签的相似度来定位有效声音。

实施例2

实施例1的声音定位方法可以应用于多种场景、多种需求下的有效声音定位，如音频器件测试场景下的有效声音定位、声音信号传输场景下的有效声音定位。本实施例以音频器件测试为例，图6示出了一种以发声器件为测试对象的音频器件测试方法，其包括：

步骤201：通过被测发声器件播放声音信号。关于声音信号的说明参见实施例1。

步骤202：通过标准收音器件收录声音信号。

步骤203：利用实施例1的声音定位方法定位收录的声音信号中的有效声音。

步骤204：通过收录的声音信号中的有效声音，分析被测发声器件的发音性能。其中，所分析的发音性能可以包括被测发声器件的频率响应，总谐波失真和异音等参数。分析的过程不是本发明的重点，故不再详细说明。

图7示出了一种以收音器件为测试对象的音频器件测试方法，其包括：

步骤301：通过标准发声器件播放声音信号。关于声音信号的说明参见实施例1。

步骤302：通过被测收音器件收录声音信号。

步骤303：利用实施例1的声音定位方法定位收录的声音信号中的有效声音。

步骤304：通过收录的声音信号中的有效声音，分析被测收音器件的收音性能。其中，所分析的收音性能可以包括被测收音器件的频率响应，总谐波失真和异音等参数。分析的过程不是本发明的重点，故不再详细说明。

本实施例的方法在测试应用中将时间定时构建在激励音源内部，只需要对收音器件录制到的数字音频做运算，就能精准地实现声音的时间对齐，由于前后两段声音标签经过了相同的音频系统，所以即便测试系统本身非线性导致了声音畸变，两段声音标签的畸变程度也是相同的，同样可以通过相似度计算找到声音标签的位置，从而准确定位有效声音，规避了非理想音频系统对有效声音定位的影响，将定位错误的几率从0.5％降低到0.1％，提升了测试的直通率和测试效率，极大的简化了测试系统的复杂度，提高了测试精准度。

实施例3

图8示出了本实施例的一种声音定位装置40，用于定位声音信号中有效声音的起始位置和/或结束位置。声音信号还包括分别位于所述有效声音之前和之后的两段相同的声音标签。关于声音信号的具体说明参见实施例1。参见图8，声音定位装置40包括：参数设置模块401、时间窗移动计算模块402、最大相似度获取模块403和有效声音定位模块404。

参数设置模块401用于设置时间窗的参数，时间窗包括前窗和后窗，参数包括前窗的宽度、后窗的宽度和前窗与后窗之间的间距，前窗和后窗的宽度等于声音标签的时长，间距等于有效声音的时长与声音标签的时长之和。

时间窗移动计算模块402用于在声音信号内多次移动时间窗，每次移动后均计算通过时间窗从声音信号中截取的两段局部声音信号之间的相似度。

最大相似度获取模块403用于获取计算所得的相似度中的最大值。

有效声音定位模块404用于定位有效声音的起始位置和/或结束位置，有效声音的起始位置为最大值对应的时间窗中前窗的结束位置，有效声音的结束位置为最大值对应的时间窗中后窗的起始位置。

时间窗移动计算模块402中，在声音信号内多次移动所述时间窗，具体包括：从前窗的起始位置对准声音信号的起始位置开始，逐步向后移动时间窗，直至后窗的结束位置到达声音信号的结束位置。为了使时间窗可以划过整段声音信号，确保找到声音信号中的声音标签，时间窗每次移动的步进为1/Fs秒，其中Fs为声音信号的采样频率。

本实施例的声音定位装置40还可以进一步包括音频生成模块405。音频生成模块405用于在有效声音的前后分别增加声音标签，以生成原始声音信号，原始声音信号经发声器件播放，播放的声音经收音器件收录，形成需要被定位有效声音的起始位置和/或结束位置的声音信号。

实施例4

图9示出了一种以发声器件为测试对象的音频器件测试系统。音频器件测试系统包括：播放控制模块501、标准收音器件502、实施例3中的声音定位装置40和第一测试分析模块503。其中发声器件可以是喇叭，收音器件可以是收音麦克风。

播放控制模块501用于控制被测发声器件播放声音信号，声音信号包括有效声音以及分别位于所述有效声音之前和之后的两段相同的声音标签。关于声音信号的说明参见实施例1。原始声音信号可以以数字文件的形式存储，经数模转换、信号放大后作为激励音源激励待测发声器件发声。播放控制模块501可以包括实现数模转换器、信号放大器等电路模块。标准收音器件502用于收录声音信号。收录的声音信号可以经信号放大、模数转换后形成数字文件进行后续的处理和分析。声音定位装置40用于定位收录的声音信号中的有效声音。第一测试分析模块503用于通过定位的有效声音，分析被测发声器件的发音性能。

图10示出了一种以收音器件为测试对象的音频器件测试系统。音频器件测试系统包括：标准发声器件601、收音控制模块602、实施例3中的声音定位装置40和第二测试分析模块603。

标准发声器件601用于播放声音信号，声音信号包括有效声音以及分别位于所述有效声音之前和之后的两段相同的声音标签。收音控制模块602用于控制被测收音器件收录声音信号。声音定位装置40用于定位收录的声音信号中的有效声音。第二测试分析模块603用于通过定位的有效声音，分析被测收音器件的收音性能。

实施例5

本发明实施例还提供一种电子设备，电子设备可以通过计算设备的形式表现(例如可以为服务器设备)，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中处理器执行计算机程序时可以实现本发明实施例1中的声音定位方法。

图11示出了本实施例的硬件结构示意图，如图11所示，电子设备9具体包括：

至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93，其中：

总线93包括数据总线、地址总线和控制总线。

存储器92包括易失性存储器，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的声音定位方法。

电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备9使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现本发明实施例1声音定位方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现本发明实施例1声音定位方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种声音定位方法，用于定位声音信号中有效声音的起始位置和/或结束位置，其特征在于，所述声音信号还包括分别位于所述有效声音之前和之后的两段相同的声音标签，所述声音定位方法包括：

获取计算所得的相似度中的最大值；

2.如权利要求1所述的声音定位方法，其特征在于，在所述声音信号内多次移动所述时间窗，具体包括：

3.如权利要求1所述的声音定位方法，其特征在于，每次移动的步进为1/Fs，其中Fs为所述声音信号的采样频率。

4.如权利要求1所述的声音定位方法，其特征在于，所述声音定位方法还包括：

5.一种声音定位装置，用于定位声音信号中有效声音的起始位置和/或结束位置，其特征在于，所述声音信号还包括分别位于所述有效声音之前和之后的两段相同的声音标签，所述声音定位装置包括：

6.如权利要求5所述的声音定位装置，其特征在于，在所述声音信号内多次移动所述时间窗，具体包括：

7.如权利要求5所述的声音定位装置，其特征在于，每次移动的步进为1/Fs，其中Fs为所述声音信号的采样频率。

8.如权利要求5所述的声音定位装置，其特征在于，所述声音定位装置还包括：

9.一种音频器件测试方法，其特征在于，所述音频器件测试方法包括：

通过标准收音器件收录所述声音信号；

利用权利要求1-4中任意一项所述的声音定位方法定位收录的所述声音信号中的有效声音；

通过定位的有效声音，分析所述被测发声器件的发音性能。

10.一种音频器件测试方法，其特征在于，所述音频器件测试方法包括：

通过被测收音器件收录所述声音信号；

通过定位的有效声音，分析所述被测收音器件的收音性能。

11.一种音频器件测试系统，其特征在于，所述音频器件测试系统包括：

标准收音器件，用于收录所述声音信号；

权利要求5-8中任意一项所述的声音定位装置，用于定位收录的所述声音信号中的有效声音；

12.一种音频器件测试系统，其特征在于，所述音频器件测试系统包括：

收音控制模块，用于控制被测收音器件收录所述声音信号；

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的声音定位方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的声音定位方法的步骤。