CN117636872A

CN117636872A - 音频处理方法、装置、电子设备和可读存储介质

Info

Publication number: CN117636872A
Application number: CN202210951620.8A
Authority: CN
Inventors: 胡广宇; 王飞; 赵茜
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2024-03-01

Abstract

本申请实施例提供了一种音频处理方法、装置、电子设备和可读存储介质，涉及计算机技术领域。当用户授权开启语音唤醒目标设备的功能后，本申请实施例可以直接根据采集音频和预先录制的唤醒音频之间的匹配程度来判断是否唤醒目标设备。在此过程中，无需将采集音频转换为文本，也无需将采集音频与文本进行比对。因此，通过本申请实施例，避免了音频转换为视频过程中所产生的误差，提高唤醒目标设备的准确性。

Description

音频处理方法、装置、电子设备和可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频处理方法、装置、电子设备和可读存储介质。

背景技术

目前，越来越多的设备可以通过用户的语音进行唤醒，以实现设备的智能化。

在相关技术中，设备在采集到音频后，会对该音频进行语音识别，并将该音频与预先存储的对照文本进行比对，若该音频的识别结果与对照文本一致，则该音频对应的设备会被唤醒从而执行后续的指令。

在此过程中，由于相关技术至少需要将音频转换为文本并进行比对，因此，在音频和文本转换的过程中会存在一定的误差，从而会出现无法唤醒设备或误唤醒设备等问题，因此，如何提高唤醒设备的准确度是目前亟需解决的问题。

发明内容

有鉴于此，本申请实施例提供一种音频处理方法、装置、电子设备和可读存储介质，以提高唤醒设备的准确度。

第一方面，提供了一种音频处理方法，所述方法包括：

获取采集音频。

读取预先录制的唤醒音频，所述唤醒音频至少包括目标唤醒词对应的音频。

确定所述采集音频和所述唤醒音频之间的音频相似度。

响应于所述音频相似度满足唤醒条件，唤醒目标设备。

第二方面，提供了一种音频处理装置，所述装置包括：

采集音频获取模块，被配置为获取采集音频。

唤醒音频读取模块，被配置为读取预先录制的唤醒音频，所述唤醒音频至少包括目标唤醒词对应的音频。

音频相似度确定模块，被配置为确定所述采集音频和所述唤醒音频之间的音频相似度。

唤醒模块，被配置为响应于所述音频相似度满足唤醒条件，唤醒目标设备。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如第一方面所述的方法。

通过本申请实施例，可以直接根据采集音频和预先录制的唤醒音频之间的匹配程度来判断是否唤醒目标设备。在此过程中，无需将采集音频转换为文本，也无需将采集音频与文本进行比对，避免了音频转换为视频过程中所产生的误差，提高唤醒目标设备的准确性。

附图说明

通过以下参照附图对本申请实施例的描述，本申请实施例的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为本申请实施例中音频处理方法的流程示意图；

图2为本申请实施例中音频处理方法的流程图；

图3为本申请实施例中分段处理过程的流程示意图；

图4为本申请实施例确定平均特征过程的流程示意图；

图5为本申请实施例中另一种音频处理方法的流程图；

图6为本申请实施例中另一种音频处理方法的流程图；

图7为本申请实施例中另一种音频处理方法的流程图；

图8为本申请实施例中另一种音频处理方法的流程图；

图9为本申请实施例中音频处理装置的结构示意图；

图10为本申请实施例中电子设备的结构示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。另外，在本申请中，在获取需要被授权取得的信息以及开启语音唤醒目标设备的功能时，均需要提前向用户请求授权。

目前，在人机交互的场景中，用户通过语音唤醒设备是必不可少的一环，例如，用户在授权之后，可以通过语音唤醒音响、手机、家电、车载终端等设备，上述设备在被唤醒后，可以根据用户的控制(例如触控、语音控制等方式)执行相应的操作(例如播放歌曲、开启导航服务、打开车窗等操作)。

在相关技术中，上述设备在采集到音频后，会对该音频进行语音识别，并将该音频与预先存储的对照文本进行比对，若该音频的识别结果与对照文本一致，则该音频对应的设备会被唤醒从而执行后续的指令。

但是，在实际应用中，由于不同的用户说话方式不同、语调不同、音色不同，因此，当用户的语音区别与普通话语音时(例如用户使用方言唤醒设备)，会使得音频和文本转换的过程存在较大的误差，从而会出现无法唤醒设备或误唤醒设备等问题，因此，如何提高唤醒设备的准确度是目前亟需解决的问题。

为了解决上述问题，本申请实施例提供一种音频处理方法，该方法可以应用于电子设备，其中，电子设备可以是终端或者服务器，终端可以是智能手机、平板电脑或者个人计算机(Personal Computer，PC)等，服务器可以是单个服务器，也可以是以分布式方式配置的服务器集群，还可以是云服务器。

通过本申请实施例的音频处理方法，电子设备可以获取采集音频，进而将采集音频和预先录制的唤醒音频进行匹配，并根据采集音频和唤醒音频判断是否唤醒目标设备。

如图1所示，图1为本申请实施例中音频处理方法的流程示意图，该示意图包括采集音频11和电子设备12。

其中，采集音频11可以是用户发出的语音(即用户的说话声音)，也可以是发声设备发出的音频(例如麦克风等)。电子设备12可以是终端或者服务器，其可以通过自身设置的音频采集单元或者通过外接的音频采集设备来获取采集音频11。

当电子设备12获取采集音频11后，可以根据采集音频11和预先录制的唤醒音频之间的匹配程度(即音频相似度)，判断是否唤醒目标设备。若采集音频11和唤醒音频匹配，则唤醒目标设备，否则结束。其中，目标设备可以是电子设备12自身(即电子设备12可以根据上述匹配的结果判断是否唤醒自身相应的功能模块)，也可以是与电子设备12有线连接或无线连接的其它设备。

具体的，如图2所示，本申请实施例的音频处理方法可以包括如下步骤：

在步骤21，获取采集音频。

其中，采集音频可以是电子设备通过自身设置的音频采集单元获取，也可以通过外接的音频采集设备获取。

在步骤22，读取预先录制的唤醒音频。

其中，唤醒音频是预先录制的并且作为是否唤醒目标设备的参考标准的音频，当采集音频与唤醒音频匹配时，本申请实施例可以唤醒目标设备。在实际应用中，用户可以通过电子设备自身设置的音频采集单元或者通过外接的音频采集设备，向电子设备中录入一条或多条唤醒音频。在判断是否唤醒目标设备的过程中，电子设备可以根据上述一条或多条唤醒音频来判断采集音频与唤醒音频是否匹配。

需要说明的，当用户向电子设备中录入多条唤醒音频时，各条唤醒音频需对应同一内容，也就是说，针对同一内容，用户可以向电子设备中重复录入多条唤醒音频。

唤醒音频至少包括目标唤醒词对应的音频，目标唤醒词可以是中文、英文等词语(例如开启车窗、开启车门、开空调等等)。另外，由于本申请实施例是基于音频之间的相似度判断采集音频和唤醒音频之间是否匹配，因此，本申请实施例在唤醒目标设备时并不会考虑采集音频的语义，进而，本申请实施例中的目标唤醒词也可以是没有语义的词语，以扩充目标唤醒词的种类，例如拟声词等等。

在一种可选的实施方式中，本申请实施例还可以对采集音频和唤醒音频进行预处理。

其中，预处理包括端点检测和噪声检测中的至少一项。端点检测可以是语音端点检测(Voice Activity Detection，VAD)，本申请实施例通过VAD，可以将采集音频和唤醒音频中的发音部分进行提取，以提高音频处理的效率。本申请实施例通过噪声检测，可以检测采集音频和唤醒音频中的噪声并去除，以提高音频相似度的准确性。

在步骤23，确定采集音频和唤醒音频之间的音频相似度。

其中，该音频相似度可以用于表征说话人的语音(即采集音频)和预先录制的唤醒音频之间的匹配程度，在本申请实施例中，匹配程度可以包括采集音频和唤醒音频之间特征的匹配程度，也可以包括采集音频的对象和唤醒音频的对象之间的匹配程度(即说话人之间的匹配程度)。

在一种可选的实施方式中，音频相似度可以包括特征相似度。其中，特征相似度可以用于表征采集音频特征和唤醒音频特征之间的特征距离，二者的特征距离越短，表征采集音频和唤醒音频的特征相似度越高，二者的特征距离越大，表征采集音频和唤醒音频的特征相似度越低。另外，采集音频的特征和唤醒音频的特征可以通过预先训练的神经网络模型确定。

进一步的，上述步骤23具体可以执行为：根据预定窗长和预定窗移对采集音频进行分段处理，确定采集音频对应的各待测片段，确定各待测片段与唤醒音频之间的特征相似度。

其中，预定窗长和预定窗移可以根据实际情况进行设置，预定窗长可以是一个固定值(例如50ms、60ms等)，也可以是根据一条或多条唤醒音频确定的窗长(例如预定窗长可以是多条唤醒音频的平均长度)。预定窗移一般小于预定窗长(例如，若预定窗长为100ms，则预定窗移可以是20ms、30ms等)，预定窗移的长度越小，本申请实施例确定的待测片段数量越多，预定窗移的长度越大，本申请实施例确定的待测片段数量越少。

如图3所示，图3为本申请实施例中分段处理过程的流程示意图，该示意图包括待测片段31、待测片段32、待测片段33和预定窗移S。其中，待测片段的长度即为预定窗长，相邻待测片段之间移动的距离为预定窗移(即图3中所示的预定窗移S)。

通过本申请实施例，可以通过预定窗长和预定窗移对采集音频进行分段处理，确定待测片段31、待测片段32和待测片段33。需要说明的，由于采集音频的长度是根据实际采集的情况确定的，因此，本申请实施例确定的最后一个待测片段(例如在图3中的待测片段33)的长度可以小于预定窗长。在另一种情况下，本申请实施例也可以在采集音频最后添加空白帧，以使得最后一个待测片段的长度等于预定窗长。

在确定各待测片段后，本申请实施例可以确定各待测片段与唤醒音频之间的特征相似度，从而判断采集音频中是否包含目标唤醒词对应的音频。

进一步的，本申请实施例确定各待测片段与唤醒音频之间的特征相似度的过程可以执行为：确定各待测片段的瓶颈特征(bottleneck features)，并根据各待测片段的瓶颈特征和唤醒音频对应的平均特征之间的特征距离，确定各待测片段与唤醒音频之间的特征相似度。

在一种可选的实施方式中，瓶颈特征可以基于预先训练的语音识别模型中的瓶颈特征层确定。

其中，瓶颈特征层可以针对待测片段进行降低维度以及升高维度的处理，从而减少待测片段参数的数量并减少数据处理时的计算量，降低电子设备的数据处理压力。

在实际应用中，本申请实施例可以先对语音识别模型进行训练，然后将训练后的语音识别模型中的瓶颈特征层用于确定各待测片段的瓶颈特征。其中，语音识别模型可以是因式分解的时延神经网络(Time Delay Neural Network Factorized，TDNNF)或其它适用的网络模型。

平均特征可以表征多个特征的平均值，在本申请实施例中，平均特征可以表征同一内容对应的多条唤醒音频之间的平均特征。

具体的，在一种可选的实施方式中，确定唤醒音频对应的平均特征的过程可以执行为：针对每个目标唤醒词，确定目标唤醒词对应的至少一个唤醒音频，确定各唤醒音频对应的瓶颈特征，对各唤醒音频对应的瓶颈特征进行特征平均处理，以确定唤醒音频对应的平均特征。

例如，如图4所示，图4为本申请实施例确定平均特征过程的流程示意图。

在确定平均特征45时，本申请实施例可以先确定目标唤醒词41对应的各唤醒音频(即唤醒音频42、唤醒音频43和唤醒音频44)，其中，图4仅为本申请实施例的一种举例，在实际应用中，唤醒音频的数量并不仅限于3个，唤醒音频的数量可以是大于等于1的任意自然数。

进而，本申请实施例可以确定各唤醒音频的瓶颈特征(即瓶颈特征421、瓶颈特征431和瓶颈特征441)，并对各瓶颈特征进行特征平均处理，以确定平均特征45。

在确定各待测片段的瓶颈特征和唤醒音频对应的平均特征之后，本申请实施例可以根据各待测片段的瓶颈特征和唤醒音频对应的平均特征之间的特征距离，确定各待测片段与唤醒音频之间的特征相似度。

例如，本申请实施例可以通过SLN-DTW(segmental local normalized DTW)算法确定上述特征相似度。其中，SLN-DTW是在标准DTW算法基础上的优化算法，增加了平均距离作为距离度量方法。

具体的，本申请实施例对采集音频和唤醒音频进行预处理后，可以对采集音频进行分段处理，以确定各待测片段。

其中，唤醒音频的帧序列可以表征为q＝(q₁,q_2,…q_m)，每个待测片段的帧序列可以表征为s＝(s₁,s_2,…s_n)，m用于表征对应唤醒音频的帧数，n用于表征对应待测片段的帧数。

进而，本申请实施例可以确定q＝(q₁,q_2,…q_m)和s＝(s₁,s_2,…s_n)中各帧之间的距离并建立距离矩阵，从而根据各帧之间的距离确定待测片段和唤醒音频之间的距离(即特征相似度)。

具体的，本申请实施例可以针对上述距离矩阵中的累计距离a(i,j)和路径长度l(i,j)进行初始化处理。其中，a(i,j)用于表征从起点(1,e)到达(i,j)所经历的累计距离，该累计距离可以通过唤醒音频的第i帧到待测片段第j帧的归一化距离表示。l(i,j)用于表征从起点(1,e)到达(i,j)所经历的路径长度，该路径长度可以通过距离矩阵中，起点(1,e)和点(i,j)之间的帧数表示。a(i,j)和l(i,j)的初始化过程具体可以表征为如下公式：

a(1,j)＝dist(1,j)_norm

l(i,1)＝i

l(1,j)＝1

其中，dist(k,l)用于表征唤醒音频的第k帧与待测片段的第l帧之间的归一化距离。

进一步的，本申请实施例可以进行迭代处理，从{(i-1，j)，(i，j-1)，(i-1，j-1)}中选取一个点(u，v)，使得的计算结果最小，从而得到如下结果：

a(i,j)＝a(u,v)+dist(i,j)_norm

l(i,j)＝l(u,v)+1

进而，本申请实施例可以在距离矩阵中确定一条平均累积距离cost(i,j)＝a(i,j)l(i,j)的最小匹配路径min_j＝1,2,…n(cost(m,j))。其中，cost(i,j)用于表征平均累积距离，最小匹配路径min_j＝1,2,…n(cost(m,j))的数值越小，表征待测片段与唤醒音频之间的相似程度越高、特征相似度越大。

在一种可选的实施方式中，音频相似度还可以包括对象相似度。其中，对象相似度用于表征采集音频对应对象与唤醒音频对应对象相同的概率。该概率越大，表征采集音频和唤醒音频的对象相似度越高，该概率越小，表征采集音频和唤醒音频的对象相似度越低。另外，对象相似度可以通过预先训练的概率模型或者神经网络模型确定。

也就是说，对象相似度用于表征采集音频对应的发声对象和唤醒音频对应的发声对象的匹配程度，对象相似度越大，表征采集音频和唤醒音频为同一发声对象的概率越大。

进一步的，本申请实施例确定采集音频和唤醒音频之间的音频相似度的过程可以执行为：将采集音频输入预先设置的音频对象识别模型，确定音频对象识别模型输出的对象相似度。

在实际应用中，由于大部分的采集音频和唤醒音频为用户的说话声音，因此，本申请实施例的音频对象识别模型可以是说话人识别模型，例如，声纹匹配模型等。

在本申请实施例中，可以通过特征相似度来判断采集音频和唤醒音频内容的相似程度，还可以通过音频对象识别模型来判断采集音频和唤醒音频对象的相似程度。因此，本申请实施例可以在采集音频和唤醒音频的内容和对象都匹配时才唤醒目标设备，提高了唤醒设备时的针对性。

在步骤24，响应于音频相似度满足唤醒条件，唤醒目标设备。

结合图1所示的内容，目标设备可以是图1中的电子设备12，也可以是与电子设备12关联的其它设备。

以目标设备为车辆中的车窗控制单元为例，电子设备12可以是车辆中设置的车载终端，车载终端可以通过自身设置的音频采集单元或者外接的音频采集设备来获取车内用户的语音(即采集音频)。

用户可以预先通过音频采集单元或者音频采集设备向车载终端中录制一条或多条“开启车窗”的唤醒音频。在用户驾驶车辆或乘坐车辆时，车载终端可以获取采集音频，并将采集音频与唤醒音频(“开启车窗”)进行匹配，若采集音频和唤醒音频之间的音频相似度满足唤醒条件，即表征采集音频同样是“开启车窗”，则车载终端可以唤醒车窗控制单元，并向车窗控制单元发送控制指令，以使得车辆的车窗开启。

需要说明的，在上述举例中，由于唤醒音频为“开启车窗”，因此，车载终端在唤醒车窗控制单元后可以直接向车窗控制单元发送控制指令，以使得车辆的车窗开启。在另一种情况下，若唤醒音频不包括控制某种设备的语义(例如唤醒音频为“你好”或者语气词等)，则电子设备在唤醒目标设备后，目标设备可以切换为被唤醒状态、待机状态等。进而，电子设备可以再根据后续的采集音频控制目标设备。

因此，通过本申请实施例，可以直接根据采集音频和预先录制的唤醒音频之间的匹配程度来判断是否唤醒目标设备。在此过程中，无需将采集音频转换为文本，也无需将采集音频与文本进行比对，避免了音频转换为视频过程中所产生的误差，提高唤醒目标设备的准确性。

在一种可选的实施方式中，上述步骤24具体可以执行为：响应于特征相似度大于等于第一相似度阈值，且对象相似度大于等于第二相似度阈值，唤醒目标设备。

其中，第一相似度阈值和第二相似度阈值可以根据实际情况进行设置，例如，第一相似度阈值和第二相似度阈值可以是相似度为90％、93％、95％等。

也就是说，在此情况下，本申请实施例既确定了特征相似度，也确定了对象相似度，此时的唤醒条件为采集音频和唤醒音频的内容匹配，同时采集音频和唤醒音频的对象也匹配。

例如，如图5所示，图5为本申请实施例的一种音频处理方法的流程图，具体包括如下步骤：

在步骤51，获取采集音频。

在步骤52，对采集音频进行端点检测和噪声检测。

在步骤53，确定采集音频和唤醒音频之间的特征相似度和对象相似度。

其中，本申请实施例可以预先对唤醒音频进行端点检测和噪声检测，也可以在唤醒目标设备的流程中对唤醒音频进行端点检测和噪声检测。若本申请实施例在录制唤醒音频时对唤醒音频进行端点检测和噪声检测，则可以减少唤醒目标设备时的计算量。

在步骤54，判断特征相似度是否大于等于第一相似度阈值，且对象相似度大于等于第二相似度阈值。若特征相似度大于等于第一相似度阈值，且对象相似度大于等于第二相似度阈值，则执行步骤55，否则结束。

在步骤55，唤醒目标设备。

以目标设备为车辆中的车窗控制单元为例，电子设备可以是车辆中设置的车载终端，车载终端可以通过自身设置的音频采集单元或者外接的音频采集设备来获取车内用户的语音(即采集音频)。

用户A预先通过音频采集单元或者音频采集设备向车载终端中录制一条或多条“开启车窗”的唤醒音频。在用户A驾驶车辆或乘坐车辆时，车载终端可以获取采集音频，并将采集音频与唤醒音频(“开启车窗”)进行匹配。若采集音频和唤醒音频之间的特征相似度大于等于第一相似度阈值，且对象相似度大于等于第二相似度阈值，即表征采集音频同样是“开启车窗”，且采集音频对应的对象为用户A，则车载终端可以唤醒车窗控制单元，并向车窗控制单元发送控制指令，以使得车辆的车窗开启。

也就是说，通过本申请实施例，只有当用户A说出“开启车窗”时，车载终端才会唤醒车窗控制单元，避免了其他用户对于唤醒目标设备过程的干扰，在提高唤醒目标设备的准确度的基础上，还可以提高行车安全。

因此，在本申请实施例中，可以通过特征相似度来判断采集音频和唤醒音频内容的相似程度，还可以通过音频对象识别模型来判断采集音频和唤醒音频对象的相似程度。因此，本申请实施例可以在采集音频和唤醒音频的内容和对象都匹配时才唤醒目标设备，提高了唤醒设备时的针对性。

在另一种可选的实施方式中，上述步骤24具体还可以执行为：响应于特征相似度大于等于第一相似度阈值，唤醒目标设备。

在此情况下，本申请实施例可以只根据特征相似度判断是否唤醒目标设备，提高唤醒目标设备的速度。

例如，如图6所示，图6为本申请实施例的另一种音频处理方法的流程图，具体包括如下步骤：

在步骤61，获取采集音频。

在步骤62，对采集音频进行端点检测和噪声检测。

在步骤63，确定采集音频和唤醒音频之间的特征相似度。

在步骤64，判断特征相似度是否大于等于第一相似度阈值。若特征相似度大于等于第一相似度阈值，则执行步骤55，否则结束。

在步骤65，唤醒目标设备。

通过本申请实施例，可以直接根据采集音频和预先录制的唤醒音频之间的匹配程度来判断是否唤醒目标设备。在此过程中，无需将采集音频转换为文本，也无需将采集音频与文本进行比对，避免了音频转换为视频过程中所产生的误差，提高唤醒目标设备的准确性。同时，由于本申请实施例只根据特征相似度判断是否唤醒目标设备，因此，在提高唤醒目标设备准确性的基础上，本申请实施例还可以提高目标设备的唤醒速度。

在一种可选的实施方式中，如图7所示，若采集音频的音频长度过长，则上述步骤24还可以执行为如下步骤：

在步骤71，响应于采集音频的音频长度大于长度阈值，将各待测片段中对应特征相似度小于第一相似度阈值的待测片段删除，确定至少一个候选片段。

在实际应用中，若采集音频的音频长度过长，则有可能会出现重复唤醒的问题，例如，若采集音频中出现了3次相同的目标唤醒词，则目标设备有可能会被唤醒3次。

因此，为了解决上述重复唤醒的问题，本申请实施例可以设置长度阈值，并将音频长度大于长度阈值的采集音频作为整体进行处理。其中，长度阈值可以根据实际情况进行设置，例如，长度阈值可以是300ms、400ms、450.6ms等时长。

进一步的，由于采集音频中可能多次出现相同的目标唤醒词，因此，本申请实施例可以在确定特征相似度之后，保留特征相似度大于等于第一相似度阈值的待测片段作为候选片段，也即保留可能出现目标唤醒词的待测片段作为候选片段。

在步骤72，根据各候选片段对应的特征相似度以及各候选片段之间的重叠度(Intersection over Union，IoU)，对各候选片段进行筛选，确定至少一个目标片段。

其中，本申请实施例可以通过非极大值抑制算法(non maximum suppression，NMS)计算各候选片段之间的重叠度。当重叠度过大时(例如重叠度大于等于预设重叠度阈值)，表征该重叠度对应的两个候选片段为同一次出现的目标关键词对应的候选片段。进而，本申请实施例可以将重叠度较小的各候选片段作为目标片段保留。

例如，本申请实施例将各待测片段中对应特征相似度小于第一相似度阈值的待测片段删除，确定了5个候选片段(候选片段A、B、C、D和E)。其中，候选片段A对应的特征相似度为0.78，候选片段B对应的特征相似度为0.98，候选片段C对应的特征相似度为0.83，候选片段D对应的特征相似度为0.68，候选片段E对应的特征相似度为0.81。

此时，本申请实施例可以将上述5个候选片段中对应特征相似度最高的候选片段(即候选片段B)作为目标片段，并确定候选片段B与其余4个候选片段之间的重叠度。若重叠度大于等于预设重叠度阈值，则删除相应的候选片段，若重叠度小于预设重叠度阈值，则保留相应的候选片段。

若候选片段B与候选片段A和C的重叠度大于等于预设重叠度阈值，则删除候选片段A和C，并保留候选片段D和E。

进一步的，本申请实施例可以重复上述步骤，以确定所以目标片段。例如，本申请实施例可以将剩余的候选片段中对应特征相似度最高的候选片段(即候选片段E)作为目标片段，并确定候选片段E与其余1个候选片段之间的重叠度。若重叠度大于等于预设重叠度阈值，则删除相应的候选片段，若重叠度小于预设重叠度阈值，则保留相应的候选片段。

若候选片段E与候选片段D的重叠度大于等于预设重叠度阈值，则删除候选片段D，并保留候选片段E。此时，所有候选片段均被删除或保留(候选片段A、C和D被删除，候选片段B和E被保留)。

在步骤73，响应于目标片段的数量大于等于数量阈值，唤醒目标设备。

其中，数量阈值可以是大于等于1的自然数。若数量阈值等于1，则表征本申请实施例在采集音频中出现目标唤醒词时就激活目标设备。若数量阈值大于1，则表征本申请实施例在采集音频中多次出现目标唤醒词时才会激活目标设备。这样，可以避免目标设备在短时间内被多次唤醒。

在一种可选的实施方式中，如图8所示，如果目标唤醒词为叠词，则本申请实施例确定各待测片段与唤醒音频之间的特征相似度的过程可以包括如下步骤：

在步骤81，确定叠词对应的音频中各重复片段之间的平均相似度。

其中，叠词为包括连续重复部分的词语，例如“ABAB”等。在本申请实施例中，由于唤醒音频是预先录制的准确的音频，因此，本申请实施例可以确定叠词对应的音频中各重复片段之间的平均相似度，并将该平均相似度作为判断是否唤醒目标设备的基准。

需要说明的，当叠词对应的音频中重复片段的数量为2时，这2个重复片段之间的特征相似度即为平均相似度。当叠词对应的音频中重复片段的数量大于2时，本申请实施例可以确定各重复片段之间的特征相似度，进而确定各特征相似度的平均相似度。

在步骤82，针对每个待测片段，确定各重复片段与待测片段中对应部分的特征相似度。

为了提高唤醒目标设备的准确度，本申请实施例可以针对叠词对应的音频中的每个重复片段单独确定相似度。

例如，若唤醒音频“ABAB”表征为(t_begin,t_end)，则该唤醒音频的前半部分可以表征为后半部分可以表征为/>进而，本申请实施例可以确定/>和/>之间的特征相似度，并将该特征相似度作为上述平均相似度。

进一步的，针对每个待测片段，本申请实施例可以确定待测片段前半部分与唤醒音频前半部分的特征相似度，待测片段后半部分与唤醒音频后半部分的特征相似度。

进一步的，在一种可选的实施方式中，上述步骤24可以执行为：响应于待测片段对应的各特征相似度均大于等于平均相似度，唤醒目标设备。

其中，由于本申请实施例是针对每个重复片段进行单独比对，因此，只有当每个重复片段均与唤醒音频匹配时，本申请实施例才会唤醒目标设备，从而提高了唤醒目标设备的准确度，避免了错误唤醒的情况发生。

基于相同的技术构思，本申请实施例还提供了一种音频处理装置，如图9所示，该装置包括：采集音频获取模块91、唤醒音频读取模块92、音频相似度确定模块93和唤醒模块94。

采集音频获取模块91，被配置为获取采集音频。

唤醒音频读取模块92，被配置为读取预先录制的唤醒音频，所述唤醒音频至少包括目标唤醒词对应的音频。

音频相似度确定模块93，被配置为确定所述采集音频和所述唤醒音频之间的音频相似度。

唤醒模块94，被配置为响应于所述音频相似度满足唤醒条件，唤醒目标设备。

在一些实施例中，所述音频相似度包括特征相似度。

所述音频相似度确定模块93具体被配置为：

根据预定窗长和预定窗移对所述采集音频进行分段处理，确定所述采集音频对应的各待测片段。

确定各所述待测片段与所述唤醒音频之间的特征相似度。

在一些实施例中，所述音频相似度还包括对象相似度；

所述音频相似度确定模块93具体被配置为：

将所述采集音频输入预先设置的音频对象识别模型，确定所述音频对象识别模型输出的对象相似度，所述对象相似度用于表征所述采集音频对应对象与所述唤醒音频对应对象相同的概率。

在一些实施例中，所述唤醒模块94具体被配置为：

响应于所述特征相似度大于等于第一相似度阈值，且所述对象相似度大于等于第二相似度阈值，唤醒目标设备。

在一些实施例中，所述音频相似度确定模块93具体被配置为：

确定各所述待测片段的瓶颈特征。

根据各所述待测片段的瓶颈特征和所述唤醒音频对应的平均特征之间的特征距离，确定各所述待测片段与所述唤醒音频之间的特征相似度。

在一些实施例中，所述唤醒音频对应的平均特征至少基于如下模块确定：

唤醒音频确定模块，被配置为针对每个目标唤醒词，确定所述目标唤醒词对应的至少一个唤醒音频。

瓶颈特征确定模块，被配置为确定各所述唤醒音频对应的瓶颈特征。

平均特征确定模块，被配置为对各所述唤醒音频对应的瓶颈特征进行特征平均处理，以确定所述唤醒音频对应的平均特征。

在一些实施例中，所述唤醒模块94具体被配置为：

响应于所述特征相似度大于等于第一相似度阈值，唤醒目标设备。

在一些实施例中，所述唤醒模块94具体被配置为：

响应于所述采集音频的音频长度大于长度阈值，将各所述待测片段中对应特征相似度小于第一相似度阈值的待测片段删除，确定至少一个候选片段。

根据各所述候选片段对应的特征相似度以及各所述候选片段之间的重叠度，对各所述候选片段进行筛选，确定至少一个目标片段。

响应于所述目标片段的数量大于等于数量阈值，唤醒目标设备。

在一些实施例中，响应于所述目标唤醒词为叠词，所述音频相似度确定模块93具体被配置为：

确定所述叠词对应的音频中各重复片段之间的平均相似度。

针对每个所述待测片段，确定各所述重复片段与所述待测片段中对应部分的特征相似度。

在一些实施例中，所述唤醒模块94具体被配置为：

响应于所述待测片段对应的各特征相似度均大于等于所述平均相似度，唤醒目标设备。

在一些实施例中，所述装置还包括：

预处理模块，被配置为对所述采集音频和所述唤醒音频进行预处理，所述预处理包括端点检测和噪声检测中的至少一项。

在一些实施例中，所述瓶颈特征基于预先训练的语音识别模型中的瓶颈特征层确定。

图10是本申请实施例的电子设备的示意图。如图10所示，图10所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器101和存储器102。处理器101和存储器102通过总线103连接。存储器102适于存储处理器101可执行的指令或程序。处理器101可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器101通过执行存储器102所存储的指令，从而执行如上所述的本申请实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线103将上述多个组件连接在一起，同时将上述组件连接到显示控制器104和显示装置以及输入/输出(I/O)装置105。输入/输出(I/O)装置105可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置105通过输入/输出(I/O)控制器106与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本申请的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的另一实施例涉及一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时可以实现上述部分或全部的方法实施例。

即，本领域技术人员可以理解，本申请实施例可以通过处理器执行计算机程序产品(计算机程序/指令)来指定相关的硬件(包括处理器自身)，进而实现上述实施例方法中的全部或部分步骤。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域技术人员而言，本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取采集音频；

读取预先录制的唤醒音频，所述唤醒音频至少包括目标唤醒词对应的音频；

确定所述采集音频和所述唤醒音频之间的音频相似度；以及

响应于所述音频相似度满足唤醒条件，唤醒目标设备。

2.根据权利要求1所述的方法，其特征在于，所述音频相似度包括特征相似度；

所述确定所述采集音频和所述唤醒音频之间的音频相似度包括：

根据预定窗长和预定窗移对所述采集音频进行分段处理，确定所述采集音频对应的各待测片段；以及

确定各所述待测片段与所述唤醒音频之间的特征相似度。

3.根据权利要求2所述的方法，其特征在于，所述音频相似度还包括对象相似度；

4.根据权利要求3所述的方法，其特征在于，所述响应于所述音频相似度满足唤醒条件，唤醒目标设备包括：

5.根据权利要求2所述的方法，其特征在于，所述确定各所述待测片段与所述唤醒音频之间的特征相似度包括：

确定各所述待测片段的瓶颈特征；以及

6.根据权利要求5所述的方法，其特征在于，所述唤醒音频对应的平均特征至少基于如下步骤确定：

针对每个目标唤醒词，确定所述目标唤醒词对应的至少一个唤醒音频；

确定各所述唤醒音频对应的瓶颈特征；以及

对各所述唤醒音频对应的瓶颈特征进行特征平均处理，以确定所述唤醒音频对应的平均特征。

7.根据权利要求2所述的方法，其特征在于，所述响应于所述音频相似度满足唤醒条件，唤醒目标设备包括：

8.根据权利要求2所述的方法，其特征在于，所述响应于所述音频相似度满足唤醒条件，唤醒目标设备包括：

响应于所述采集音频的音频长度大于长度阈值，将各所述待测片段中对应特征相似度小于第一相似度阈值的待测片段删除，确定至少一个候选片段；

根据各所述候选片段对应的特征相似度以及各所述候选片段之间的重叠度，对各所述候选片段进行筛选，确定至少一个目标片段；以及

9.根据权利要求2所述的方法，其特征在于，响应于所述目标唤醒词为叠词；

所述确定各所述待测片段与所述唤醒音频之间的特征相似度包括：

确定所述叠词对应的音频中各重复片段之间的平均相似度；以及

10.根据权利要求9所述的方法，其特征在于，所述响应于所述音频相似度满足唤醒条件，唤醒目标设备包括：

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述采集音频和所述唤醒音频进行预处理，所述预处理包括端点检测和噪声检测中的至少一项。

12.根据权利要求5或6所述的方法，其特征在于，所述瓶颈特征基于预先训练的语音识别模型中的瓶颈特征层确定。

13.一种音频处理装置，其特征在于，所述装置包括：

采集音频获取模块，被配置为获取采集音频；

唤醒音频读取模块，被配置为读取预先录制的唤醒音频，所述唤醒音频至少包括目标唤醒词对应的音频；

音频相似度确定模块，被配置为确定所述采集音频和所述唤醒音频之间的音频相似度；以及

14.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-12中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-12中任一项所述的方法。