CN111383658B

CN111383658B - 音频信号的对齐方法和装置

Info

Publication number: CN111383658B
Application number: CN201811641809.7A
Authority: CN
Inventors: 李敬
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2023-06-09
Anticipated expiration: 2038-12-29
Also published as: CN111383658A

Abstract

本发明涉及语音处理技术领域，本发明提供一种音频信号的对齐方法和装置，所述方法包括对待对齐的第一音频信号和第二音频信号的帧信号进行初始匹配对齐；计算所述第一音频信号和第二音频信号的帧信号之间的相似度；根据所述相似度确定所述第一音频信号和第二音频信号中帧信号不匹配的位置；从所述位置后的一段语音对应的音频信号间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。本发明降低了因两段音频信号存在不匹配的音频片段而对整段音频信号对齐的影响。

Description

音频信号的对齐方法和装置

技术领域

本发明涉及语音处理技术领域，具体而言，本发明涉及一种音频信号的对齐方法和装置。

背景技术

随着多媒体的多元化发展，对音频的编辑手段层出不穷，其中，语音模仿受到了用户的欢迎。因此，实现语音模仿的音频对齐技术也得到了广泛的应用。

但传统的音频对齐技术对于存在较多不同音频片段的两段音频信号，如其中一段音频信号增加一段音频片段信号、或者该两段音频信号完全不同的情况，得到对齐效果比较差，同时也会对后续的音频信号的对齐匹配造成影响。

发明内容

为克服以上技术问题，特别是现有技术中因存在不匹配音频片段信号而导致对齐效果差的问题，特提出以下技术方案：

第一方面，本发明提供一种音频信号的对齐方法，包括如下步骤：

对待对齐的第一音频信号和第二音频信号的帧信号进行初始匹配对齐；

计算所述第一音频信号和第二音频信号的帧信号之间的相似度；

根据所述相似度确定所述第一音频信号和第二音频信号中帧信号不匹配的位置；

从所述位置后的一段语音对应的音频信号间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。

在其中一个实施例中，所述对待对齐的第一音频信号和第二音频信号的帧信号进行初始匹配对齐的步骤包括：

对待对齐的第一音频信号和第二音频信号的帧信号进行分帧，并计算每帧的MFCC系数；

利用DTW算法对第一音频信号和第二音频信号的帧信号进行匹配对齐，获得第一音频信号和第二音频信号的帧信号之间的帧对应关系。

在其中一个实施例中，所述计算所述第一音频信号和第二音频信号的帧信号之间的相似度的步骤，包括：

获取所述第一音频信号和所述第二音频信号的信号长度，并计算得到所述第一音频信号和所述第二音频信号之间的信号长度的第一比例系数；

对所述第一音频信号中以每帧开始获取设定帧长度的第一音频片段信号，将所述第一音频片段信号对应匹配至所述第二音频信号中的对应的第二音频片段信号，并计算得到所述第一音频片段信号和所述第二音频片段信号的信号长度的第二比例系数；

若所述第一比例系数与所述第二比例系数的比例符合对应音频类型的经验比例值时，所述第一音频片段信号和所述第二音频片段信号符合帧信号之间的相似度要求。

在其中一个实施例中，所述计算得到所述第一音频信号和所述第二音频信号之间的信号长度的第一比例系数的公式为：

其中，Total A和Total B分别为所述第一音频信号和所述第二音频信息的信号长度。

在其中一个实施例中，所述计算得到所述第一音频片段信号和所述第二音频片段信号的信号长度的第二比例系数的公式为：

其中，i＝1：Na-La

start＝Map₁₂(i)·x

stop＝Map₁₂(La+i-1)·y

i为获取第一音频片段信号的起始点，La表示从所述第一音频信号以第i帧信号开始获取的第一音频片段信号的帧长度为La，Na为所述第一音频信号的总帧长度；

star为帧信号长度为La的第一音频片段信号对应在所述第二音频信号中的帧的起始帧号；stop为帧信号长度为La的第一音频片段信号对应在所述第二音频信号中的帧的截止帧号；

Map₁₂(i)为关于第一音频信号的匹配对齐后的匹配结果；x为第一音频信号中第i帧信号对应到第二音频信号中的起始信号帧；y为第一音频信号中第i帧信号对应到第二音频信号中的截止帧号。

在其中一个实施例中，所述若所述第一比例系数与所述第二比例系数比例符合对应音频类型的经验比例值为：

k(i)＞X*ori且k(i)<Y*ori

其中，Y＞1＞X，X和Y为对应音频类型的经验比例值。

在其中一个实施例中，所述根据所述相似度确定所述第一音频信号和第二音频信号中帧信号不匹配的位置的步骤，包括：

若所述第一比例系数与所述第二比例系数的比例不符合对应音频类型的经验比例值时，对应的第一音频片段信号与第二音频片段信号的帧信号不匹配。

在其中一个实施例中，所述从所述位置后的一段语音对应的音频信号间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐的步骤，包括：

利用VAD算法检测出位于所述位置后的首个句间间隙；

从所述句间间隙开始的下一段语音对应的音频信号，利用DTW算法重新对第一音频信号和第二音频信号的帧信号进行匹配对齐。

第二方面，本发明还提供一种音频信号的对齐装置，其包括：

初始匹配对齐模块，用于对待对齐的第一音频信号和第二音频信号的帧信号进行初始匹配对齐；

计算相似度模块，用于计算所述第一音频信号和第二音频信号的帧信号之间的相似度；

确认不匹配模块，用于根据所述相似度确定所述第一音频信号和第二音频信号中帧信号不匹配的位置；

重新匹配对齐模块，用于从所述位置后的一段语音对应的音频信号间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。

第三方面，本发明还提供一种计算机设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行第一方面任一实施例所述的音频信号的对齐方法。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现执行第一方面任一实施例所述的音频信号的对齐方法。

本发明提供的一种音频信号的对齐方法和装置，对待对齐的所述第一音频信号和第二音频信号进行初始匹配对齐，根据该初始匹配对齐的参数计算得到该两段音频信号的相似度，根据所述相似度得到所述第一音频信号和第二音频信号中帧信号不匹配的位置，再以该不匹配的位置后的首个间隔为起点，对其下一段语音的音频信号重新进行匹配对齐，该提供的实施例通过间隔将位于前面的不匹配的音频片段与其后续的音频片段进行隔离，从而避免了传统技术中所述第一音频信号和第二音频信号存在较多不同音频片段的情况下，位于前面的不匹配的音频片段信号对后续的音频片段信号的匹配对齐造成了干扰，从而影响整段音频信号的匹配对齐。进一步地，对于以该音频信号的对齐方法为基础的音频应用，如跟唱、声音模仿秀、对比变声等音频处理也不会因其中的不匹配段影响整一段音频的对比处理。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明中的一个实施例的音频信号的对齐方法流程图；

图2为本发明中的一个实施例中对两段音频信号不匹配的音频信号示意图；

图3为本发明中的一个实施例中对两段音频信号匹配对齐的音频信号示意图；

图4为本发明中的一个实施例中对两段音频信号的对齐方法的流程图；

图5为本发明中的一个实施例的音频信号的对齐装置的示意图；

图6为本发明中的一个实施例的服务器的结构示意图；

图7为本发明中的一个实施例的移动终端的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通讯链路上，执行双向通讯的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通讯设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通讯设备；PCS(Personal Communications Service，个人通讯系统)，其可以组合语音、数据处理、传真和/或数据通讯能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通讯终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本技术领域技术人员可以理解，这里所使用的远端网络设备，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，远端网络设备、终端设备与WNS服务器之间可通过任何通讯方式实现通讯，包括但不限于，基于3GPP、LTE、WIMAX的移动通讯、基于TCP/IP、UDP协议的计算机网络通讯以及基于蓝牙、红外传输标准的近距无线传输方式。

为了解决传统的音频对齐技术中对于相似度不高的两段音频信号对齐结果差的问题。本发明提供了一种音频信号的对齐方法，参考图1所示，图1是一个实施例的音频信号的对齐方法的流程图，该方法包括以下步骤：

S110，对待对齐的第一音频信号和第二音频信号的帧信号进行初始匹配对齐。

在语音信号处理中，根据对两段相似音频信号对齐的需求，对该两段相似音频信号进行匹配对齐，所述两段相似音频信号在本实施中分别为第一音频信号和第二音频信号。如在音频模仿秀中，用户A模仿其他人的讲话语音或其他声源(如动物、其他特效音频等)某段语音B而录制一段音频，为了让用户A更能接近被模仿的语音原始声音的效果，可以将用户A的语音与被模仿语音的音频信号进行时域对齐，产生发音效果更为接近被模仿语音的发音。

但由于该两段音频信号可能存在不同的音频片段，如其中一段音频信号增加一段音频片段信号、或者该两段音频信号完全不同的情况，使所述第一音频信号和第二音频信号中某段帧信号差异较大，影响后续匹配对齐的效果。

如图2所示的情况，对于图2中下方的音频信号b₂对比上方的音频信号a₂多出了一段音频片段信号，该两段音频信号的帧信号分别为a₂(i)和b₂(j)，其对应关系会有a₂(1)对应b(1)、a₂(1)对应b₂(2)、a₂(1)对应b₂(m-1)、a₂(2)对应b₂(m)、a₂(3)对应b₂(m)等对应关系，可以看出两段音频信号的帧信号不能有较好地匹配对齐。

因此，该方法的初始阶段，先对该两段音频信号做初始匹配对齐，以便初始判断其匹配对齐的情况。

S120，计算所述第一音频信号和第二音频信号的帧信号之间的相似度。

根据步骤S110对所述第一音频信号和第二音频信号进行初始匹配对其的结果得到两段音频信号之间的相似度。所述相似度具体可为两段音频对应的发音的帧信号的排序是否相似，其中一段音频信号中是否安插另一段音频信号不存在的帧信号等情况。

若两段音频信号的相似度高，则其得到较好的匹配对齐，可以对该两段音频信号中的模仿音频信号进行进一步的处理，例如对齐进行修音或变声等处理，以便使两段音频信号的效果更为接近。

S130，根据所述相似度确定所述第一音频信号和第二音频信号中帧信号不匹配的位置。

对于上述步骤S120对于所述第一音频信号和第二音频信号的帧信号中的帧信号进行对比，判断对应帧信号之间的相似度。若对应的帧信号的相似度达不到要求，那么对应的帧信号的位置不能较好地匹配对齐，此处，两段的音频信号的对齐效果也因此达不到要求。

S140，从所述位置后的一段语音对应的音频信号间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。

为了避免两段音频信号中不匹配的位置影响后续的音频匹配对齐，利用该不匹配的位置的一段语音对应的音频信号的间隔，将不匹配位置的信号与后续的音频信号进行隔离，以所述间隔开始的下一段音频，重新对所述第一音频信号和第二音频信号的对应帧信号进行匹配对齐。

本发明中该实施例利用了两端音频信号自身的间隔，将相似度不高，即不能较好进行匹配的音频分别与其后续的帧信号隔开，针对该后续的帧信号重新进行匹配对齐，以免前面的不匹配对齐的位置干扰后续帧信号的匹配对齐。

对于上述的步骤S110，其还包括以下步骤：

其中，MFCC(Mel Frequency Cepstral Coefficents，梅尔倒谱)系数，梅尔倒谱系数是基于人耳听觉特性提出来的。

对两段音频信号进行分帧后，通过该两段音频信号各自的物理信息(如频谱包络和细节)进行编码运算，得到对应的特征向量。

然后使用DTW(Dynamic Time Warping，动态时间归整)算法，该DTW算法可以是标准的DTW算法，对两段音频信号进行匹配对齐，获得两段信号的帧对应关系。如第一音频信号中的某帧a(i)，一定与第二音频信号中的某帧b(j)或某几帧对应；反之，b(j)一定也会和第一音频信号中的某帧或者某几帧对应。可参考图3所示，图3中的两段音频信号a₃和b₃得到较好匹配对齐，在图中位于下方音频信号的长度为上方音频信号的2倍，两段音频信号的语音相同的情况下，则理想的对应关系为b₃(2n)与a₃(n)对应。即上方音频信号的1帧信号对应下方音频信号2帧信号。同时，在上方音频信号中任意一段连续信号，如果其长度是m的话，则其对应到下方音频信号中的对应这段信号，其长度应为2m，也就是两个信号中任意一段匹配段的长度比例，与两个信号总时间的长度比例一致。

该实施例中对两段音频信号的初始匹配对齐的方法利用了帧长度要满足语音信号的短时平稳性，先对两段音频信号先进行分帧处理可以降低匹配对齐的难度，以减少相应的运算量。

对于步骤S120，可以包括以下步骤：

为了得到所述第一音频信号和第二音频信号的帧信号的相似度，需可以从所述两段音频信号是否匹配对齐进行考量。根据上述得到两段音频信号匹配对齐，所述两段音频信号中任意一段匹配段的长度比例，与两个信号总时间的长度比例一致的结论。需要先计算所述第一音频信号和所述第二音频信号的整段信号的长度比例系数，在本实施例中，该比例系数为第一比例系数。计算所述第一比例系数的公式为：

然后，分别对该两段音频信号中的对应截取的的帧的长度的片段信号的比例系数。在本实施例中，对所述第一音频信号中以每帧开始获取设定帧长度的第一音频片段信号，根据匹配对齐，如DTW算法，在所述第二音频信号中得到与所述第一音频片段信号匹配的对应的第二音频片段信号，再求取所述第一音频所述第一音频片段信号和所述第二音频片段信号的信号长度的比例系数，在本实施例中，该比例系数为第二比例系数。计算所述第二比例系数的公式为：

其中，i＝1：Na-La (3)

start＝Map₁₂(i)·x (4)

stop＝Map₁₂(La+i-1)·y (5)

i为获取第一音频片段信号的起始点，La表示从所述第一音频信号以第i帧信号开始获取的第一音频片段信号的帧信号的长度为La，Na为所述第一音频信号的总帧长度；

由上述的公式(1)～(5)，分别得到所述第一音频信号和第二音频信号的长度的第一比例系数、与以第i帧为始匹配段的第一音频片段信号和第二音频片段信号的长度的第二比例系数，从而可以计算得到两个长度比例系数之间的比例关系，进而判断第一音频信号的中第i帧为始的帧信号长度为La的第一音频片段信号匹配至第二音频信号中的第二音频片段信号的相似度。

所述相似度体现于第一比例系数与第二比例系数之间的比例值，而所述比例值是根据所述第一音频信号和第二音频信号所属的音频类型确定的经验比例值。

所述若所述第一比例系数与所述第二比例系数比例符合对应音频类型的经验比例值为：

k(i)＞X*ori且k(i)<Y*ori

其中，Y＞1＞X，X和Y为对应音频类型的经验比例值。

对于一般的正常语音(如正常语速的发音)，X＝0.8，Y＝1.2。

对于慢速语音或快速语音，所述X和Y的值会有所增大或减小。

若所述第一比例系数与所述第二比例系数对应的比例值超出对应音频类型的经验比例值的范围，则对应的第一音频片段信号和第二音频片段信号的相似度达不到匹配对齐的要求，即对应的第一音频片段信号和第二音频片段信号的帧信号为不匹配的位置。

步骤S140，包括以下步骤：

利用VAD算法检测出位于所述位置后的首个句间间隙；

根据上述得到的关于第一音频片段信号和第二音频片段信号的帧信号为不匹配的位置，从该位置的首个间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。在本实施例中，确认所述间隔可以通过VAD算法检测出位于所述位置后的首个句间间隙，即首个间隔；利用DTW算法对该首个句间间隙开始的下一段的第一音频信号和第二音频信号的帧信号进行匹配对齐，避免了该之前不能匹配对齐的帧信号对其的匹配对齐造成干扰，进而影响整段的音频信号的匹配对齐。

如以下的两段文字，分别由两个测试者进行发音朗读：

(a)一二你好三四五六七八九十

(b)一二点三四五六七八九十

经过初始的匹配对齐后，确认上述两段文字中的不匹配的位置为“你好”和“点”对应的帧信号的位置上，通过VAD算法，找到了两段音频信号位于上述不匹配位置的句间间隙分别位于“你好”与“点”的文字对应的帧信号后。然后分别对应的句间间隙的下一段文字的语音，即均以“三”作为起点，重新对后续的文字的语音进行匹配对齐。如此沿着音频信号的发音顺序进行匹配对齐，直到两段待对齐音频信号结束为止。

根据上述的描述，可以得到关于该两段音频信号的对齐方法的流程图，如图4所示。

S410、对两段音频信号进行初始匹配对齐；

S420、通过第一、二比例系数判断是否满足相似度；

S430、如果满足，继续进行匹配对齐；

S440、否则，确认帧信号不匹配的位置；

S450、检测不匹配的位置后的首个音频信号间隔；

S460、从该间隔开始得到下一段音频片段信号重新匹配对齐。

本发明提供的一种音频信号的对齐方法，对待对齐的两段音频信号进行初始匹配对齐，根据该初始匹配对齐的参数计算得到该两段音频信号的相似度，根据所述相似度得到该两段音频信号中帧信号不匹配的位置，再以该不匹配的位置后的首个间隔为起点，对其下一段语音的音频信号重新进行匹配对齐，该方案通过间隔将位于前面的不匹配的音频片段与其后续的音频片段进行隔离，从而避免了传统技术中两段音频信号存在较多不同音频片段的情况下，位于前面的不匹配的音频片段信号对后续的音频片段信号的匹配对齐造成了干扰，从而影响整段音频信号的匹配对齐。进一步地，对于以该音频信号的对齐方法为基础的音频应用，如跟唱、声音模仿秀、对比变声等音频处理也不会因其中的不匹配段影响整一段音频的对比处理。

基于与上述音频信号的对齐方法相同的发明构思，本发明实施例还提供了一种音频信号的对齐装置，如图5所示，包括：

初始匹配对齐模块510，用于对待对齐的第一音频信号和第二音频信号的帧信号进行初始匹配对齐；

计算相似度模块520，用于计算所述第一音频信号和第二音频信号的帧信号之间的相似度；

不匹配确认模块530，用于根据所述相似度确定所述第一音频信号和第二音频信号中帧信号不匹配的位置；

重新匹配对齐模块540，用于从所述位置后的一段语音对应的音频信号间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。

此外，在又一种实施例中，本发明还提供一种计算机设备，其中，该计算机设备是用于执行上述实施例所提供的音频信号的对齐方法的音频信号的对齐设备，如图6所示，所述计算机设备可以是服务器，该服务器设置在音频信号的对齐设备中，所述设置了服务器的音频信号的对齐设备包括处理器603、存储器605、输入单元607以及显示单元609等器件。本领域技术人员可以理解，图6示出的结构器件并不构成对所有服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器605可用于存储计算机程序601以及各功能模块，处理器603运行存储在存储器605的计算机程序601，从而执行设备的各种功能应用以及数据处理。存储器605可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器605只作为例子而非作为限定。

输入单元607用于接收信号的输入及接收用户的输入，输入单元607可包括触控面板以及其它输入设备，触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元609可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元609可采用液晶显示器、有机发光二极管等形式。处理器603是计算机设备的控制中心，利用各种接口和线路连接整个电脑的各个部分，通过运行或执行存储在存储器603内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

在一种实施方式中，所述服务器包括一个或多个处理器603，以及一个或多个存储器605，一个或多个计算机程序601，其中所述一个或多个计算机程序601被存储在存储器605中并被配置为由所述一个或多个处理器403执行，所述一个或多个计算机程序601配置用于执行以上实施例所述的基于访问量的抽奖数据处理方法。图6中所示的一个或多个处理器603能够执行、实现图5中所示的初始匹配对齐模块510、计算相似度520、确认不匹配模块530、重新匹配对齐模块540的功能。

本发明实施例提供的一种服务器，可实现对待对齐的第一音频信号和第二音频信号的帧信号进行初始匹配对齐；计算所述第一音频信号和第二音频信号的帧信号之间的相似度；根据所述相似度确定所述第一音频信号和第二音频信号中帧信号不匹配的位置；从所述位置后的一段语音对应的音频信号间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。本发明对待对齐的两段音频信号进行初始匹配对齐，根据该初始匹配对齐的参数计算得到该两段音频信号的相似度，根据所述相似度得到该两段音频信号中帧信号不匹配的位置，再以该不匹配的位置后的首个间隔为起点，对其下一段语音的音频信号重新进行匹配对齐，该方案通过间隔将位于前面的不匹配的音频片段与其后续的音频片段进行隔离，从而避免了传统技术中两段音频信号存在较多不同音频片段的情况下，位于前面的不匹配的音频片段信号对后续的音频片段信号的匹配对齐造成了干扰，从而影响整段音频信号的匹配对齐。进一步地，对于以该音频信号的对齐方法为基础的音频应用，如跟唱、声音模仿秀、对比变声等音频处理也不会因其中的不匹配段影响整一段音频的对比处理。

本发明实施例提供的服务器可以实现上述提供的音频信号的对齐方法的实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

本发明所述的计算机设备还可以是移动终端，如图7所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图7示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图7，手机包括：射频(Radio Frequency，RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity，Wi-Fi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了Wi-Fi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器780还具有以下功能：对待对齐的第一音频信号和第二音频信号的帧信号进行初始匹配对齐；计算所述第一音频信号和第二音频信号的帧信号之间的相似度；根据所述相似度确定两段音频信号中帧信号不匹配的位置；从所述位置后的一段语音对应的音频信号间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。也即处理器780具备执行上述的任一实施例音频信号的对齐方法的功能，在此不再赘述。

在另一种实施例中，本发明提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例所述的网络服饰试穿方法。其中，所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random AcceSS Memory，随即存储器)、EPROM(EraSable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储设备包括由设备(例如，计算机、手机)以能够读的形式存储或传输信息的任何介质，可以是只读存储器，磁盘或光盘等。

本发明实施例提供的一种计算机可读存储介质，可实现对待对齐的第一音频信号和第二音频信号的帧信号进行初始匹配对齐；计算所述第一音频信号和第二音频信号的帧信号之间的相似度；根据所述相似度确定两段音频信号中帧信号不匹配的位置；从所述位置后的一段语音对应的音频信号间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。该发明提供的实施例通过间隔将位于前面的不匹配的音频片段与其后续的音频片段进行隔离，从而避免了传统技术中两段音频信号存在较多不同音频片段的情况下，位于前面的不匹配的音频片段信号对后续的音频片段信号的匹配对齐造成了干扰，从而影响整段音频信号的匹配对齐。进一步地，对于以该音频信号的对齐方法为基础的音频应用，如跟唱、声音模仿秀、对比变声等音频处理也不会因其中的不匹配段影响整一段音频的对比处理。

本发明实施例提供的计算机可读存储介质可以实现上述音频信号的对齐方法的实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

本发明提供的一种音频信号的对齐方法和装置，对待对齐的两段音频信号进行初始匹配对齐，根据该初始匹配对齐的参数计算得到该两段音频信号的相似度，根据所述相似度得到该两段音频信号中帧信号不匹配的位置，再以该不匹配的位置后的首个间隔为起点，对其下一段语音的音频信号重新进行匹配对齐，该方案通过间隔将位于前面的不匹配的音频片段与其后续的音频片段进行隔离，从而避免了传统技术中两段音频信号存在较多不同音频片段的情况下，位于前面的不匹配的音频片段信号对后续的音频片段信号的匹配对齐造成了干扰，从而影响整段音频信号的匹配对齐。进一步地，对于以该音频信号的对齐方法为基础的音频应用，如跟唱、声音模仿秀、对比变声等音频处理也不会因其中的不匹配段影响整一段音频的对比处理。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频信号的对齐方法，其特征在于，包括如下步骤：

从所述不匹配的位置后的一段语音对应的音频信号间隔开始，以所述间隔开始的下一段音频，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。

2.根据权利要求1所述的方法，其特征在于，所述对待对齐的第一音频信号和第二音频信号的帧信号进行初始匹配对齐的步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述计算所述第一音频信号和第二音频信号的帧信号之间的相似度的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，

所述计算得到所述第一音频信号和所述第二音频信号之间的信号长度的第一比例系数的公式为：

其中，TotalA和TotalB分别为所述第一音频信号和所述第二音频信息的信号长度。

5.根据权利要求3所述的方法，其特征在于，

所述计算得到所述第一音频片段信号和所述第二音频片段信号的信号长度的第二比例系数的公式为：

其中，i＝1：Na-La

start＝Map₁₂(i)·x

stop＝Map₁₂(La+i-1)·y

start为帧信号长度为La的第一音频片段信号对应在所述第二音频信号中的帧的起始帧号；stop为帧信号长度为La的第一音频片段信号对应在所述第二音频信号中的帧的截止帧号；

6.根据权利要求5所述的方法，其特征在于，

k(i)＞X*ori且k(i)<Y*ori

其中，Y＞1＞X，X和Y为对应音频类型的经验比例值。

7.根据权利要求3所述的方法，其特征在于，所述根据所述相似度确定所述第一音频信号和第二音频信号中帧信号不匹配的位置的步骤，包括：

8.根据权利要求1所述的方法，其特征在于，所述从所述位置后的一段语音对应的音频信号间隔开始，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐的步骤，包括：

利用VAD算法检测出位于所述位置后的首个句间间隙；

9.一种音频信号的对齐装置，其特征在包括：

重新匹配对齐模块，用于从所述不匹配的位置后的一段语音对应的音频信号间隔开始，以所述间隔开始的下一段音频，对所述第一音频信号和第二音频信号的帧信号重新进行匹配对齐。

10.一种音频信号的对齐设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于执行根据权利要求1至8任一项所述的音频信号的对齐方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1-8任一项所述的音频信号的对齐方法。