CN112581970A - 用于音频信号生成的系统和方法 - Google Patents

用于音频信号生成的系统和方法 Download PDF

Info

Publication number
CN112581970A
CN112581970A CN201910864002.8A CN201910864002A CN112581970A CN 112581970 A CN112581970 A CN 112581970A CN 201910864002 A CN201910864002 A CN 201910864002A CN 112581970 A CN112581970 A CN 112581970A
Authority
CN
China
Prior art keywords
audio data
bone conduction
frequency
weight
air conduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910864002.8A
Other languages
English (en)
Other versions
CN112581970B (zh
Inventor
周美林
廖风云
齐心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Voxtech Co Ltd
Original Assignee
Shenzhen Voxtech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Voxtech Co Ltd filed Critical Shenzhen Voxtech Co Ltd
Priority to CN201910864002.8A priority Critical patent/CN112581970B/zh
Priority to CN202210237943.0A priority patent/CN114822565A/zh
Priority to CN202210239104.2A priority patent/CN114822566A/zh
Publication of CN112581970A publication Critical patent/CN112581970A/zh
Application granted granted Critical
Publication of CN112581970B publication Critical patent/CN112581970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

本申请涉及用于音频信号生成的系统和方法。该方法可以包括获取由骨传导传感器采集的第一音频数据;获取由气传导传感器采集的第二音频数据,第一音频数据和第二音频数据代表用户的语音,所述第一音频数据和第二音频数据由不同的频率成分组成;该方法也可以包括基于第一音频数据和第二音频数据生成第三音频数据,其中,第三音频数据中高于某一频率点的频率成分相对于第一音频数据中高于该频率点的频率成分增加。所述方法还可以包括基于第三音频数据,确定表示用户语音的目标音频数据,所述目标音频数据具有比第一音频数据和第二音频数据更高的保真度。

Description

用于音频信号生成的系统和方法
技术领域
本申请一般涉及信号处理领域,具体地,涉及用于基于骨导音频信号和气导音频信号生成音频信号的系统和方法。
背景技术
随着电子设备的广泛使用,人们之间的通信变得越来越方便。当使用电子设备进行通信时,用户可以依靠麦克风在用户说话时采集语音信号。由麦克风采集的语音信号可以表示用户的语音。然而,由于,例如麦克风本身的性能、噪声等,有时难以确保麦克风采集的语音信号是充分地可理解的(即,信号的保真度)。特别是在工厂、汽车、飞机、船舶、商场等公共场合中,不同的背景噪声严重影响了通信质量。因此,希望提供用于生成具有较少噪声和/或改进的保真度的音频信号的系统和方法。
发明内容
根据本申请的第一方面,提供一种用于音频信号生成的系统。该系统可以包括至少一个存储介质和至少一个与该至少一个存储介质通信的处理器。至少一种存储介质,包括指令。当执行所述指令时,所述系统执行一个或以上下述操作。系统可以获取由骨传导传感器采集的第一音频数据。系统可以获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成。系统基于所述第一音频数据和所述第二音频数据生成第三音频数据。所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
在一些实施例中,系统可以对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据。系统基于所述预处理后的第一音频数据和所述第二音频数据,生成所述第三音频数据。
在一些实施例中,所述第一预处理操作包括归一化操作。
在一些实施例中,系统可以获取训练后的机器学习模型。系统基于所述第一音频数据,使用所述训练后的机器学习模型确定所述预处理后的第一音频数据。所述预处理后的第一音频数据中高于第二频率点的频率成分相对于所述第一音频数据中高于所述第二频率点的频率成分增加。
在一些实施例中,系统获取多组训练数据。所述多组训练数据中的每组训练数据包括代表语音样本的骨导音频数据和气导音频数据。系统使用所述多组训练数据训练初级机器学习模型。在所述初级机器学习模型的训练过程中,所述多组训练数据中的每组训练数据中的所述骨导音频数据作为所述初级机器学习模型的输入,以及与所述骨导音频数据对应的所述气导音频数据为所述初级机器学习模型的期望输出。
在一些实施例中,用于采集所述至少两个训练数据组中每组训练数据的所述骨导音频数据的特定骨传导传感器所在的身体部位与用于采集所述第一音频数据的所述骨传导传感器所在的所述用户的身体部位相同。
在一些实施例中,所述初级机器学习模型基于递归神经网络模型或长短期记忆网络构建。
在一些实施例中,系统可以获取滤波器,所述滤波器用于提供特定气导音频数据与所述特定气导音频数据对应的特定骨导音频数据之间的关系。使用所述滤波器处理所述第一音频数据以确定所述预处理后的第一音频数据。
在一些实施例中,系统可以对所述第二音频数据执行第二预处理操作以获取预处理后的第二音频数据。系统可以基于所述第一音频数据和所述第二音频数据生成第三音频数据。
在一些实施例中,所述第二预处理操作包括降噪操作。
在一些实施例中,系统可以至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个确定一个或以上频率阈值。系统可以基于所述一个或以上频率阈值、所述第一音频数据以及所述第二音频数据生成所述第三音频数据。
在一些实施例中,系统可以确定与所述第二音频数据相关的噪声水平。系统可以基于与所述第二音频数据相关的噪声水平,确定所述一个或以上频率阈值中的至少一个。
在一些实施例中,与所述第二音频数据相关联的所述噪声水平由所述第二音频数据的信噪比表示。系统可以由以下操作确定所述第二音频数据的所述信噪比。系统可以使用所述骨传导传感器和所述气传导传感器确定所述第二音频数据中的噪声的能量。
在一些实施例中,与所述第二音频数据相关联的所述噪声水平越大,所述一个或以上频率阈值中的至少一个频率阈值越大。
在一些实施例中,系统可以基于与所述第一音频数据相关联的频率响应曲线确定所述一个或以上频率阈值中的至少一个。
在一些实施例中,系统可以基于所述频率点、所述第一音频数据以及所述第二音频数据生成所述第三音频数据。
在一些实施例中,系统可以确定所述第一音频数据的低频部分,所述低频部分包括低于所述一个或以上频率阈值中的某个频率阈值的频率成分。系统可以确定所述第二音频数据的高频部分,所述高频部分包括高于所述一个或以上频率阈值中的所述某个频率阈值的频率成分。系统可以拼接所述第一音频数据的所述低频部分和所述第二音频数据的所述高频部分以生成所述第三音频数据。
在一些实施例中,系统可以确定多个频率范围。系统可以分别确定位于所述多个频率范围的每个频率范围内的所述第一音频数据的一部分和所述第二音频数据的一部分的第一权重和第二权重。系统可以通过分别使用所述第一权重和所述第二权重,对位于所述多个频率范围中的每个频率范围内的所述第一音频数据的所述部分和所述第二音频数据的所述部分进行加权以确定所述第三音频数据。
在一些实施例中,系统可以至少部分地基于所述频率点,分别地确定所述第一音频数据的第一部分和所述第一音频数据的第二部分的第一权重和第二权重。所述第一音频数据的所述第一部分包括低于所述频率点的频率成分,以及所述第一音频数据的所述第二部分包括高于所述频率点的频率成分。系统可以至少部分地基于所述频率点,分别地确定所述第二音频数据的第三部分和所述第二音频数据的第四部分的第三权重和第四权重。所述第二音频数据的所述第三部分包括低于所述频率点的频率成分以及所述第二音频数据的所述第四部分包括高于所述频率点的频率成分。系统可以通过使用所述第一权重、所述第二权重、所述第三权重、所述第四权重对所述第一音频数据的所述第一部分、所述第一音频数据的所述第二部分、所述第二音频数据的所述第三部分和所述第二音频数据的所述第四部分进行加权以确定所述第三音频数据。
在一些实施例中,系统可以至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述第一音频数据的第一权重。系统可以至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述第二音频数据的第二权重。系统可以通过所述第一权重和所述第二权重对所述第一音频数据和所述第二音频数据的加权以确定所述第三音频数据。
在一些实施例中,系统可以对所述第三音频数据执行后处理操作以获取目标音频数据,所述目标音频数据代表所述用户的所述语音,所述目标音频数据比所述第一音频数据和所述第二音频数据具有更高的保真度。
在一些实施例中,系统可以所述后处理操作包括降噪操作。
根据本申请的第二方面,提供了一种音频信号生成的方法。该方法可以在至少一个计算设备上实现,每个计算设备可以包括至少一个处理器和存储设备。该方法可以包括以下操作中的一个或多个。该方法可以包括用于获取由骨传导传感器采集的第一音频数据和由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成;用于基于所述第一音频数据和所述第二音频数据生成第三音频数据,其中,所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
根据本申请的第三方面,提供了一种音频信号生成的系统,在计算设备上实现的系统可以具有连接到网络的处理器,存储介质和通信平台。该系统可以包括获取模块,用于获取由骨传导传感器采集的第一音频数据以及由气传导传感器采集的第二音频数据。所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成。该系统还可以包括音频数据生成模块,用于基于所述第一音频数据和所述第二音频数据生成第三音频数据。所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
根据本申请的第四方面,提供了一种计算机可读介质。计算机可读介质可存储指令。当至少一个处理设备执行所述指令时,所述至少一个处理设备执行一个或以上下述操作。至少一个处理设备可以获取由骨传导传感器采集的第一音频数据。至少一个处理设备可以获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成。至少一个处理设备基于所述第一音频数据和所述第二音频数据生成第三音频数据。所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
与现有技术相比,本发明的有益效果表现如下:
(一)基于骨导传感器和气导器同时采集的骨导音频数据和气导音频数据生成音频数据,使得生成的音频数据相对于骨导音频数据高频成分增加,提高了骨导信号的保真度与可懂性;生成的音频数据相对于气导音频数据噪声减少,降低了气导信号的噪声,提高了气导信号的保真度;
(二)在音频数据生成前,对骨导音频数据重构,可以增加骨导音频数据中的高频成分,使骨导音频数据的声学特征更加接近气导音频数据的特征,提高骨导音频数据的质量,从而进一步提高了生成的音频数据的质量;
(三)基于环境噪声等因素选择不同的频率拼接点对骨导音频数据和气导音频数据进行拼接生成音频数据,可以在降低音频数据的噪声的同时保证音频数据的保真度。
本申请的一部分附加特性可以在下面的描述中进行说明。通过对以下描述和相应附图的研究或者对实施例的生产或操作的了解,本申请的一部分附加特性对于本领域技术人员是明显的。本申请的特征可以通过对以下描述的具体实施例的各种方面的方法、手段和组合的实践或使用得以实现和达到。
附图说明
本申请将通过示例性实施例进行进一步描述。这些示例性实施例将通过附图进行详细描述。这些实施例是非限制性的示例性实施例,在这些实施例中,各图中相同的编号表示相似的结构,其中:
图1是根据本申请的一些实施例所示的示例性音频信号生成系统的示意图。
图2是根据本申请的一些实施例所示的示例性处理设备的框图。
图3是根据本申请的一些实施例所示的示例性音频数据生成模块的框图。
图4是根据本申请的一些实施例所示的用于生成音频信号的示例性过程的流程图。
图5是根据本申请的一些实施例所示的使用训练后的机器学习模型重构骨导音频数据的示例性过程的流程图。
图6是根据本申请的一些实施例所示的利用谐波修正模型重构骨导音频数据的示例性过程的流程图。
图7是根据本申请的一些实施例所示的利用稀疏矩阵技术重构骨导音频数据的示例性过程的流程图。
图8是根据本申请的一些实施例所示的用于生成音频数据的示例性过程的流程图。
图9是根据本申请的一些实施例所示的用于生成音频数据的示例性过程的流程图。
图10是根据本申请的一些实施例所示的骨导音频数据、相应的重构骨音频数据和相应的气导音频数据的频率响应曲线图。
图11是根据本申请的一些实施例所示的由位于使用者身体的不同部位的骨传导传感器采集的骨导音频数据的频率响应曲线图。
图12是根据本申请的一些实施例所示的由位于使用者身体的不同部位的骨传导传感器采集的骨导音频数据的频率响应曲线图。
图13是根据本申请的一些实施例所示的根据2000Hz的频率拼接点拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图。
图14是根据本申请的一些实施例所示的根据2000Hz的频率拼接点拼接骨导音频数据和利用维纳滤波器对气导音频数据进行降噪后的气导音频数据生成的拼接音频数据的时频图。
图15是根据本申请的一些实施例所示的根据2000Hz的频率拼接点拼接骨导音频数据和利用谱减法对气导音频数据进行降噪后的气导音频数据生成的拼接音频数据的时频图。
图16是根据本申请的一些实施例所示的骨导音频数据的时频图。
图17是根据本申请的一些实施例所示的气导音频数据的时频图。
图18是根据本申请的一些实施例所示根据2000Hz的频率拼接点拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图。
图19是根据本申请的一些实施例所示根据3000Hz的频率拼接点拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图。
图20是根据本申请的一些实施例所示根据4000Hz的频率拼接点拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图。
具体实施方式
为了更清楚地说明本申请的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。然而,本领域技术人员应该明白,可以在没有这些细节的情况下实施本申请。在其他情况下,为了避免不必要地模糊本申请的一些方面,本申请已经较高级别(没有细节)描述了公知的方法、程序、系统、组件和/或电路。对于本领域的普通技术人员来讲,显然可以对所披露的实施例作出各种改变,并且在不偏离本申请的原则和范围的情况下,本申请中所定义的普遍原则可以适用于其他实施例和应用场景。因此,本申请不限于所示的实施例,而是符合与申请专利范围一致的最广泛范围。
根据以下对附图的描述,本申请的这些和其他的特征、特点以及相关结构元件的功能和操作方法,以及部件组合和制造经济性,可以变得更加显而易见,这些附图都构成本申请说明书的一部分。然而,应当理解的是,附图仅仅是为了说明和描述的目的,并不旨在限制本申请的范围。应当理解的是,附图并不是按比例绘制的。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,流程图中的操作可以不按顺序执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将一个或以上其他操作添加到这些流程图中。也可以从流程图中删除一个或以上操作。
本申请提供了用于音频信号生成的系统和方法。该系统和方法可以获取由骨传导传感器采集的第一音频数据(也可称为骨导音频数据)。该系统和方法可以获取由气传导传感器采集的第二音频数据(也可称为气导音频数据)。骨导音频数据和气导音频数据可以表示用户的语音,所述骨导音频数据和第气导音频数据各自由不同的频率成分组成。该系统和方法可以基于骨导音频数据和气导音频数据生成音频数据。所述生成的音频数据中高于某一频率点的频率成分相对于骨导音频数据中高于所述频率点的频率成分增加。该系统和方法可以基于生成的音频数据确定表示用户语音的目标音频数据,所述目标音频数据具有比骨导音频数据和气导音频数据更高的保真度。根据本申请,基于骨导音频数据和气导音频数据生成的音频数据相对于骨导音频数据具有更多的高频成分,相对于气导音频数据具有更少的噪声,这可以提高生成的音频数据相对于骨导音频数据和气导音频数据的保真度和可懂性。在一些实施例中,可以通过增加骨导音频数据中的高频成分重构骨导音频数据获取重构的骨导音频数据,重构的骨导音频数据更接近气导音频数据,相对于骨导音频数据,重构的气导音频数据质量更高,可进一步提高生成的音频数据的质量。在一些实施例中,可以通过基于环境噪声等因素选择不同的频率拼接点对骨导音频数据和气导音频数据进行拼接生成音频数据,可以在降低音频数据的噪声的同时保证音频数据的保真度。
图1是根据本申请的一些实施例所示的示例性音频信号生成系统100的示意图。音频信号生成系统100可以包括音频采集设备110、服务器120、终端130、存储设备140和网络150。
音频采集设备110可以在用户说话时采集用户的声音或语音来获取音频数据(例如,音频信号)。例如,当用户说话时,用户发出的声音会引起用户嘴巴周围的空气振动和/或使用者身体的组织(例如,头骨)振动。音频采集设备110可以接收振动并将振动转换成电信号(例如,模拟信号或数字信号),也可称为音频数据。音频数据可以以电信号的形式经由网络150发送到服务器120/终端130和/或存储设备140。在一些实施例中,音频采集设备110可以包括录音器、耳机(例如,蓝牙耳机、有线耳机)、助听器设备等。
在一些实施例中,音频采集设备110可以通过无线(例如,网络150)和/或有线方式与扬声器连接。音频采集设备110可以将采集到的音频数据发送到扬声器以播放和/或再现用户的语音。在一些实施例中,扬声器和音频采集设备110可以集成在一个单独的设备中,例如耳机。在一些实施例中,音频采集设备110和扬声器可以彼此分离。例如,音频采集设备110可以安装在第一终端(例如,耳机)中,扬声器可以安装在另一终端(例如,终端130)中。
在一些实施例中,音频采集设备110可包括骨传导麦克风112和气传导麦克风114。骨传导麦克风112可包括用于采集骨导音频数据的骨传导传感器。骨传导传感器可以在用户说话时采集通过用户骨骼(例如,颅骨)组织传导的振动信号来生成骨导音频数据。在一些实施例中,骨传导传感器可以形成骨传导传感器阵列。在一些实施例中,骨传导麦克风112可以放置在使用者身体的某个部位处和/或与使用者身体的某个部位接触,采集骨导音频数据。使用者身体的部位可包括前额、颈部(例如,喉咙处)、面部(例如,嘴巴周围的区域、下巴)、头部的顶部、乳突、耳朵周围的区域、耳朵内部的区域、太阳穴等,或其任何组合。例如,骨传导麦克风112可以放置在耳屏、耳廓、内耳道、外耳道等处和/或与耳屏、耳廓、内耳道、外耳道等处接触。在一些实施例中,骨导音频数据的声学特征可能因为骨传导麦克风112所处和/或接触的使用者身体的部位的不同而不同。例如,位于耳朵周围区域的骨传导麦克风112采集的骨导音频数据比位于前额的骨传导麦克风112采集骨导音频数据具有更高的能量。气传导麦克风114可包括一个或以上气传导传感器,用于在用户说话时采集通过气传导的气导音频数据。在一些实施例中,气传导传感器可以形成气传导传感器阵列。在一些实施例中,气体传导麦克风114可以放置在距离使用者嘴巴一定范围(例如,0cm、1cm、2cm、5cm、10cm、20cm等)内。气导音频数据的声学特征(例如,气导音频数据的平均幅度)根据气体传导麦克风114和使用者嘴巴之间的不同距离可以是不同的。例如,气体传导麦克风114与使用者嘴巴之间的距离越大,气导音频数据的平均幅度可能越小。
在一些实施例中,服务器120可以是单个服务器,也可以是服务器组。服务器组可以是集中的(例如,数据中心)或分布式的(例如,服务器120可以是分布式系统)。在一些实施例中,服务器120可以是本地的,也可以是远程的。例如,服务器120可以经由网络150访问存储在终端130和/或存储设备140中的信息和/或数据。又例如,服务器120可以直接连接到终端130和/或存储设备140以访问存储的信息和/或数据。在一些实施例中,服务器120可以在云平台上实施。仅作为示例,该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
在一些实施例中,服务器120可包括处理设备122。处理设备122可以处理与音频信号生成有关的信息和/或数据,以执行本申请中描述的一个或以上的功能。例如,处理设备122可以获取由骨传导麦克风112采集的骨导音频数据和由气传导麦克风114采集的气导音频数据,其中骨导音频数据和气导音频数据表示相同的用户(或使用者)的语音。处理设备122可以基于骨导音频数据和气导音频数据生成目标音频数据。又例如,处理设备122可以从存储设备140或任何其他存储设备获得训练后的机器学习模型和/或构造后的滤波器。处理设备122可以使用训练后的机器学习模型和/或构造后的滤波器来重构骨导音频数据。再例如,处理设备122可以通过使用多组语音样本(即训练数据)训练初级机器学习模型以确定训练后的机器学习模型。多组语音样本中的每组语音样本可以包括表示相同的用户语音的骨导音频数据和气导音频数据。作为又一示例,处理设备122可以对气导音频数据执行降噪操作以获取降噪气导音频数据。处理设备122可以基于重构的骨导音频数据和降噪后的气导音频数据生成目标音频数据。在一些实施例中,所述处理设备122可包括一个或以上处理引擎(例如,单芯片处理引擎或多芯片处理引擎)。仅作为示例,处理设备122可以包括中央处理单元(CPU)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等或其任意组合。
在一些实施例中,终端130可以包括移动设备130-1、平板电脑130-2、膝上型计算机130-3、车辆130-4中的内置设备、可穿戴设备130-5等,或其任何组合。在一些实施例中,移动设备130-1可以包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备等,或其任何组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器控制设备、智能监控设备、智能电视、智能摄像机、对讲机等,或其任意组合。在一些实施例中,智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)等,或其任意组合。在一些实施例中,虚拟现实设备和/或增强现实设备包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等,或其任意组合。例如,虚拟现实设备和/或增强现实设备可包括GoogleTM眼镜、Oculus Rift、HoloLens、GearVR等。在一些实施例中,车载设备130-4可以包括车载计算机、车载电视等。在一些实施例中,终端130可以是具有定位技术的设备,用于定位乘客和/或终端130的位置。在一些实施例中,可穿戴设备130-5可包括智能手环、智能鞋袜、智能眼镜、智能头盔、智能手表、智能服装、智能背包、智能配件等,或其任何组合。在一些实施例中,音频采集设备110可以集成于终端130。
存储设备140可以存储数据和/或指令。例如,存储设备140可以存储多组语音样本的数据、一个或以上机器学习模型、训练后的机器学习模型和/或构造后的滤波器、由骨传导麦克风112和气传导麦克风114采集的音频数据等。在一些实施例中,存储设备140可以存储从终端130和/或音频采集设备110获取的数据。在一些实施例中,存储设备140可以存储服务器120可以执行用于执行本发明中描述的示例性方法的数据和/或指令。在一些实施例中,存储设备140可包括质量存储器、可移除存储器、易失性读写内存、只读内存(ROM)等,或其任何组合。示例性大容量存储器件可包括磁盘、光盘、固态驱动器等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、内存卡、压缩盘、磁带等。示例性易失性读写内存可以包括随机存取内存(RAM)。示例性RAM可包括动态随机存取内存(DRAM)、双倍数据速率同步动态随机存取内存(DDR SDRAM)、静态随机存取内存(SRAM)、晶闸管随机存取内存(T-RAM)和零电容随机存取内存(Z-RAM)等。示例性ROM可以包括掩模型只读内存(MROM)、可编程只读内存(PROM)、可擦除可编程只读内存(EPROM)、电可擦除可编程只读内存(EEPROM)、光盘只读内存(CD-ROM)和数字多功能磁盘只读内存等。在一些实施例中,所述存储设备140可在云端平台上执行。仅作为示例,该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
在一些实施例中,存储设备140可以连接到网络150,以与音频信号生成系统100的一个或以上组件(例如,音频采集设备110、服务器120和终端130)通信。音频信号生成系统100的一个或以上组件可以经由网络150访问存储设备140中存储的数据或指令。在一些实施例中,存储设备140可以直接连接到音频信号生成系统100的一个或以上组件(例如,音频采集设备110、服务器120和终端130)或与之通信。在一些实施例中,存储设备140可以是服务器120的一部分。
网络150可以促进信息和/或数据的交换。在一些实施例中,音频信号生成系统100的一个或以上组件(例如,音频采集设备110、服务器120、终端130和存储设备140)可以经由网络150将信息和/或数据发送到音频信号生成系统100的其他组件。例如,服务器120可以经由网络150从终端130获取骨导音频数据和气导音频数据。在一些实施例中,网络150可以为任意形式的有线或无线网络,或其任意组合。仅作为示例,网络150可以包括电缆网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通信(NFC)网络等或其任意组合。在一些实施例中,网络150可以包括一个或以上网络接入点。例如,网络150可以包括有线或无线网络接入点,例如基站和/或互联网交换点,音频信号生成系统100的一个或以上组件可通过其连接到网络150以交换数据和/或信息。
本领域普通技术人员将理解,当音频信号生成系统100的元件(或组件)执行时,该元件可以通过电信号和/或电磁信号执行。例如,当骨传导麦克风112将骨导音频数据发送到服务器120时,骨传导麦克风112的处理器可以生成编码骨导音频数据的电信号。然后,骨传导麦克风112的处理器可以将电信号传输到输出端口。如果骨传导麦克风112经由有线网络与服务器120通信,则输出端口可以物理地连接到电缆,电缆还可以将电信号传输到服务器120的输入端口。如果骨传导麦克风112经由无线网络与服务器120通信,则骨传导麦克风112的输出端口可以是一个或以上天线,其将电信号转换为电磁信号。类似地,气体传导麦克风114可以经由电信号或电磁信号将气导音频数据传输到服务器120。在诸如终端130和/或服务器120的电子设备内,当其处理器处理指令,发出指令和/或执行动作时,指令和/或动作通过电信号进行。例如,当处理器从存储介质检索或获取数据时,可以将电信号发送给存储介质的读/写设备,该读/写设备可读取存储介质中的结构化数据或将结构化数据写入存储介质中。该结构数据可以通过电子设备的总线,以电信号的形式传输至处理器。此处,电信号可以指一个电信号、一系列电信号和/或至少两个不连续的电信号。
图2是示出根据本申请的一些实施例的示例性处理设备的框图。如图2所示,处理设备122可以包括获取模块210、预处理模块220、音频数据生成模块230和存储模块240。上述每个模块可以是设计用于执行某些动作的硬件电路,例如,根据存储在一个或以上存储介质中的指令,和/或硬件电路和一个或以上存储介质的任何组合。
获取模块210可以被配置为获取用于生成音频信号的数据。例如,获取模块210可以获取原始音频数据、一个或以上模型、用于训练机器学习模型的训练数据等。在一些实施例中,获取模块210可以获取由骨传导传感器采集的第一音频数据。如本文所用,骨传导传感器可以指能够在用户说话时采集由用户的骨组织(例如,颅骨)传导的振动信号的任何传感器(例如,骨传导麦克风112),如本申请中其他地方所述(例如,图1和其描述)。在一些实施例中,第一音频数据可以包括时域中的音频信号、频率域中的音频信号等。第一音频数据可包括模拟信号或数字信号。获取模块210也可以获取由气传导传感器采集的第二音频数据。气体传导传感器可以指能够在用户说话时采集由气传导的振动信号的任何传感器(例如,气体传导麦克风114),如本申请中其他地方所述(例如,图1及其描述)。在一些实施例中,第二音频数据可以包括时域中的音频信号及频率域中的音频信号等。第二音频数据可包括模拟信号或数字信号。在一些实施例中,获取模块210可以获得用于重构第一音频数据的训练后的机器学习模型、构造后的滤波器、谐波修正模型等。在一些实施例中,处理设备122可以通过网络150实时或周期性地从气传导传感器(例如,气传导麦克风114)、终端130、存储设备140或任何其他存储设备获取一个或以上模型、第一音频数据和/或第二音频数据。
预处理模块220可以被配置用于预处理第一音频数据和/或第二音频数据。第一音频数据和第二音频数据经过预处理后也可以分别被称为预处理后的第一音频数据和预处理后的第二音频数据。示例性预处理操作可以包括域变换操作、信号校准操作、音频重构操作、语音增强操作等。在一些实施例中,预处理模块220可以通过执行傅立叶变换或逆傅立叶变换来执行域变换操作。在一些实施例中,预处理模块220可以对第一音频数据和/或第二音频数据执行归一化操作,以获得归一化的第一音频数据和/或归一化的第二音频数据,用于校准第一音频数据和/或第二音频数据。在一些实施例中,预处理模块220可以对第二音频数据(或归一化的第二音频数据)执行语音增强操作。在一些实施例中,预处理模块220可以对第二音频数据(或归一化的第二音频数据)执行降噪操作以获得降噪的第二音频数据。在一些实施例中,预处理模块220可以使用训练后的机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等,或其任何组合对第一音频数据(或归一化的第一音频数据)执行音频重构操作以生成重构的第一音频数据。
音频数据生成模块230可以被配置为基于第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)生成第三音频数据。在一些实施例中,与第三音频数据相关联的噪声水平可以低于与第二音频数据(或预处理后的第二音频数据)相关联的噪声水平。在一些实施例中,音频数据生成模块230可以基于第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)根据一个或以上频率阈值生成第三音频数据。在一些实施例中,音频数据生成模块230可以确定单个频率阈值。音频数据生成模块230可以根据单个频率阈值在频率域中拼接第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)以生成第三音频数据。
在一些实施例中,音频数据生成模块230可以至少部分基于频率阈值,分别确定第一音频数据(或预处理后的第一音频数据)的低频部分和第一音频数据(或预处理后的第一音频数据)的高频部分的第一权重和第二权重。第一音频数据(或预处理后的第一音频数据)的低频部分包括了第一音频数据(或预处理后的第一音频数据)中小于所述频率阈值的频率成分。第一音频数据(或预处理后的第一音频数据)的高频部分包括了第一音频数据(或预处理后的第一音频数据)中大于所述频率阈值的频率成分。在一些实施例中,音频数据生成模块230可以至少部分基于频率阈值,分别确定第二音频数据(或预处理后的第二音频数据)的低频部分和第二音频数据的高频部分(或预处理后的第二音频数据)的第三权重和第四权重。第二音频数据(或预处理后的第二音频数据)的低频部分包括了第二音频数据(或预处理后的第二音频数据)中小于所述频率阈值的频率成分。第二音频数据(或预处理后的第二音频数据)的高频部分包括了第二音频数据(或预处理后的第二音频数据)中大于所述频率阈值的频率成分。在一些实施例中,音频数据生成模块230可以通过分别使用第一权重、第二权重、第三权重和第四权重对第一音频数据的(或预处理后的第一音频数据)的低频部分和高频部分以及第二音频数据(或预处理后的第二音频数据)的低频部分和高频部分进行加权,以确定第三音频数据。
在一些实施例中,音频数据生成模块230可以至少部分地基于第一音频数据(或预处理后的第一音频数据)和/或第二音频数据(或预处理后的第二音频数据),确定对应于第一音频数据(或预处理后的第一音频数据)的权重和对应于第二音频数据(或预处理后的第二音频数据)的权重。音频数据生成模块230可以使用对应于第一音频数据(或预处理后的第一音频数据)的权重和对应于第二音频数据(或预处理后的第二音频数据)的权重对第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)进行加权以确定第三音频数据。
在一些实施例中,音频数据生成模块230可以基于第三音频数据确定表示用户语音的目标音频数据,其具有比第一音频数据和第二音频数据更高的保真度。在一些实施例中,音频数据生成模块230可以将第三音频数据指定为目标音频数据。在一些实施例中,音频数据生成模块230可以对第三音频数据执行后处理操作以获取目标音频数据。在一些实施例中,音频数据生成模块230可以对频率域中的第三音频数据执行逆傅里叶变换操作,以获得时域中的目标音频数据。在一些实施例中,音频数据生成模块230可以对第三音频数据执行降噪操作,以获得目标音频数据。在一些实施例中,音频数据生成模块230可以经由网络150将信号发送到客户终端(例如,终端130)、存储设备140和/或任何其他存储设备(未在音频信号生成系统100中示出)。该信号可以包括目标音频数据。该信号也可以被配置为使客户终端播放目标音频数据。
存储模块240可以被配置用于存储与音频信号生成系统100相关联的数据和/或指令。例如,存储模块240可以存储语音样本数据、机器学习模型、训练后的机器学习模型和/或构造后的滤波器、由骨传导麦克风112和/或气传导麦克风114采集的音频数据等。在一些实施例中,存储模块240可以与配置中的存储设备140相同。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。显然,对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。例如,可以省略存储模块240。又例如,音频数据生成模块230和存储模块240可以集成到一个模块中。
图3是示出根据本申请的一些实施例的示例性音频数据生成模块的框图。如图3所示,音频数据生成模块230可包括频率确定单元310、权重确定单元320和组合单元330。上述每个子模块可以是设计用于执行某些动作的硬件电路,例如,根据存储在一个或以上存储介质中的指令,和/或硬件电路和一个或以上存储介质的任何组合。
频率确定单元310可以被配置为至少部分基于骨导音频数据和/或气导音频数据确定一个或以上频率阈值。在一些实施例中,频率阈值可以是骨导音频数据和/或气导音频数据的频率点。在一些实施例中,频率阈值可以与骨导音频数据和/或气导音频数据的频率点不同。在一些实施例中,频率确定单元310可以基于与骨导音频数据相关联的频率响应曲线确定频率阈值。与骨导音频数据相关联的频率响应曲线可包括随频率变化而变化的频率响应值。在一些实施例中,频率确定单元310可以基于骨导音频数据相关联的频率响应曲线的频率响应值确定一个或以上频率阈值。在一些实施例中,频率确定单元310可以根据频率响应曲线的变化特性确定一个或以上频率阈值。在一些实施例中,频率确定单元310可以基于与重构的骨导音频数据相关联的频率响应曲线确定一个或以上频率阈值。在一些实施例中,频率确定单元310可以基于与气导音频数据的至少一部分相关联的噪声水平确定一个或以上频率阈值。在一些实施例中,噪声水平可以由气导音频数据的信噪比表示。信噪比越大,噪声水平可能越低。与气导音频数据相关的信噪比越大,频率阈值越大。
权重确定单元320可以被配置为根据一个或以上频率阈值将骨导音频数据和气导音频数据划分为多个片段。骨导音频数据的每个片段可以对应于气导音频数据的一个片段。如本文所使用的,气导音频数据的片段对应于骨导音频数据的片段可以指的是骨导音频数据和气导音频数据的两个片段由一个或两个相同的频率阈值定义。在一些实施例中,频率阈值的计数或数量可以是一个,权重确定单元320可以将骨导音频数据和气导音频数据划分为两个片段。
权重确定单元320也可以是配置用于确定骨导音频数据和气导音频数据的多个片段中的每个片段的权重。在一些实施例中,骨导音频数据的特定片段的权重和气导音频数据的对应的特定片段的权重满足一定的条件,使得骨导音频数据的特定片段的权重与气导音频数据的对应的特定片段的权重之和等于1。在一些实施例中,权重确定单元320可以基于气导音频数据的SNR,确定骨导音频数据或气导音频数据的不同片段的权重。
组合单元330可以被配置用于基于权重对骨导音频数据和气导音频数据的多个片段的每个片段骨导音频数据和气导音频数据进行拼接、融合和/或组合,以生成拼接后、或融合后、或组合后的音频数据。在一些实施例中,组合单元330可以根据单个频率阈值确定骨导音频数据的低频部分和气导音频数据的高频部分。组合单元330可以拼接和/或组合骨导音频数据的低频部分和气导音频数据的高频部分来生成拼接音频数据。组合单元330可以基于一个或以上滤波器确定骨导音频数据的低频部分和气导音频数据的高频部分。在一些实施例中,组合单元330可以分别使用第一权重、第二权重、第三权重和第四权重对骨导音频数据的低频部分、骨导音频数据的高频部分、气导音频数据的低频部分,以及气导音频数据的高频部分进行加权,确定拼接后、融合后、或组合后的音频数据。在一些实施例中,组合单元330可以通过分别使用骨导音频数据的权重和气导音频数据的权重,通过加权以确定融合后或组合后的音频数据。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。显然,对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。例如,音频数据生成模块230还可以包括音频数据划分子模块(图3中未示出)。音频数据划分子模块可以被配置为根据一个或以上频率阈值将每个骨导音频数据和气导音频数据划分为多个片段。又例如,权重确定单元320和组合单元330可以集成到一个模块中。
图4是根据本申请的一些实施例所示的用于生成音频信号的示例性过程的流程图。在一些实施例中,过程400可以实现为存储设备140中存储的指令(例如,应用程序)。处理设备122可以执行指令,并且当执行指令时,处理设备122可以被配置用于执行处理过程400。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程400可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图4中示出并在下面描述的过程400的操作顺序是非限制性的。
在410中,处理设备122(例如,获取模块210)可以获取由骨传导传感器采集的第一音频数据。如本文所用,骨传导传感器指可以在用户(或使用者)说话时采集由用户骨组织(例如,颅骨)传导的振动信号的任何传感器(例如,骨传导麦克风112),如本申请中其他地方所述(例如,图1及其描述)。由骨传导传感器采集的振动信号可以通过骨传导传感器或其他设备(例如,放大器、模拟-数字转换器(ADC)等)转换成音频数据(例如,音频信号)。由骨传导传感器采集的音频数据(例如,第一音频数据)也可以被称为骨导音频数据。在一些实施例中,第一音频数据可以包括时域中的音频信号、频率域中的音频信号等。第一音频数据可包括模拟信号或数字信号。在一些实施例中,处理设备122可以通过网络150实时或周期性地从骨传导传感器(例如,骨传导麦克风112)、终端130、存储设备140或任何其他存储设备获取第一音频数据。
第一音频数据可以由具有不同频率和/或强度(即,幅度)的多个波(例如,正弦波、谐波等)叠加表示。如本文所使用,具有特定频率的波也可以被称为具有特定频率的频率成分。在一些实施例中,由骨传导传感器采集的第一音频数据中包括的频率成分可以在0Hz至20kHz、或20Hz至10kHz、或20Hz至4000Hz、或20Hz至3000Hz、或800Hz至3500Hz、或800Hz至3000Hz、或1500Hz至3000Hz等频率范围内。当用户说话时,第一音频数据可以由骨传导传感器采集和/或生成。第一音频数据可以表示用户说话(即用户的语音)的内容。例如,第一音频数据可以包括可以反映用户语音内容的声学特征和/或语义信息。第一音频数据的声学特征可包括与持续时间相关的特征、与能量相关的特征、与基频相关的特征、与频率谱相关的特征、与相位谱相关的特征等。与持续时间相关的特征也可以被称为持续时间特征。示例性持续时间特征可以包括语速、短时平均过零率等。与能量相关联的特征也可以被称为能量或幅度特征。示例性能量或幅度特征可包括短时平均能量、短时平均幅度、短时能量梯度、平均幅度变化率、短时最大幅度等。与基频相关联的特征也可以被称为基频特征。示例性基频特征可以包括基频、基频的音高、平均基频、最大基频、基频范围等。与频率谱相关联的示例性特征可以包括共振峰特征、线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)等。与相位谱相关联的示例性特征可以包括瞬时相位、初始相位等。
在一些实施例中,可以通过将骨传导传感器放置在用户身体的某个部位和/或使骨传导传感器与用户的皮肤接触来采集和/或生成第一音频数据。与骨传导传感器接触的使用者身体的部位包括但不限于前额、颈部(例如,喉咙)、乳突、耳朵周围的区域、耳朵内部区域、太阳穴、面部(例如,嘴巴周围的区域、下巴)、头顶等。例如,骨传导麦克风112可以放置在耳屏、耳廓、内耳道、外耳道等处和/或与耳屏、耳廓、内耳道、外耳道等接触。在一些实施例中,第一音频数据可以随着与骨传导传感器接触的使用者身体的部位不同而不同。例如,与骨传导传感器接触的使用者身体的部位不同可以导致第一音频数据的频率特征(例如,频率成分的幅度)、第一音频数据中包括的噪声等产生变化。例如,由位于颈部的骨传导传感器采集的第一音频数据的信号强度大于由位于耳屏的骨传导传感器采集的第一音频数据的信号强度。由位于耳屏处的骨传导传感器采集的第一音频数据的信号强度大于由位于耳道处的骨传导传感器采集的第一音频数据的信号强度。再如,由位于用户耳朵周围区域的第一骨传导传感器采集的骨导音频数据比具有相同的配置但位于用户头顶的第二骨传导传感器同时采集的骨导音频数据具有更多频率成分。在一些实施例中,第一音频数据可以由位于用户身体的某一部位的骨传导传感器向该部位施加在一定范围内(例如,0N至1N,或0N至0.8N等)的特定压力采集。例如,第一音频数据可以由位于用户身体耳屏处的骨传导传感器采集向该部位施加特定压力(例如,0牛顿,或0.2N,或0.4N,或0.8N等)采集。骨传导传感器施加在相同身体部位上的压力的不同可能使得骨传导传感器采集的第一音频数据的频率成分、声学特性(例如,频率成分的幅度)、第一音频数据中的噪声等发生变化。例如,当压力从0N增大到0.8N的时候,第一音频数据的信号强度先逐渐增大,后增大的趋势减缓,慢慢达到饱和。。关于骨传导传感器放置在不同身体部位对骨导音频数据的影响的更多描述可以在本申请的其他地方找到(例如,图11及其描述)。关于骨传导传感器对用户身体部位施加的不同压力对骨导音频数据的影响的更多描述可以在本申请的其他地方找到(例如,图12及其描述)。
在420中,处理设备122(例如,获取模块210)可以获取由气传导传感器采集的第二音频数据。如本文所使用,气传导传感器可以指能够在用户说话时采集通过气传导的振动信号的任何传感器(例如,气传导麦克风114),如本申请中其他地方所述(例如,图1及其描述)。由气传导传感器采集的振动信号可以由气传导传感器或其他设备(例如,放大器、模拟-数字转换器(ADC)等)转换为音频数据(例如,音频信号)。由气传导传感器采集的音频数据(例如,第二音频数据)也可以被称为气导音频数据。在一些实施例中,第二音频数据可以包括时域中的音频信号、频率域中的音频信号等。第二音频数据可包括模拟信号或数字信号。在一些实施例中,处理设备122可以通过网络150实时或周期性地从气传导传感器(例如,气传导麦克风114)、终端130、存储设备140或者任何其他存储设备获取第二音频数据。在一些实施例中,可以通过将气体传导传感器放置在距离用户嘴部一定距离(例如,0cm、1cm、2cm、5cm、10cm、20cm等)范围内来采集第二音频数据。在一些实施例中,气传导传感器与用户嘴部之间距离的不同可能会导致所采集的第二音频数据(例如,第二音频数据的平均幅度)的不同。
第二音频数据可以由具有不同频率和/或强度(即,幅度)的多个波(例如,正弦波、谐波等)的叠加表示。在一些实施例中,由气传导传感器采集的第二音频数据中包括的频率成分可以在0Hz至20kHz、或20Hz至20kHz、或800Hz至10kHz等频率范围内。当用户说话时,气传导传感器可以采集和/或生成第二音频数据。第二音频数据可以表示用户说话(即用户的语音)的内容。例如,第二音频数据包括可以反映用户语音内容的声学特征和/或语义信息。第二音频数据的声学特征可以包括如操作410中所述的与持续时间相关联的特征、与能量相关联的特征、与基频相关联的特征、与频率谱相关联的特征、与相位谱等相关的特征。
在一些实施例中,第一音频数据和第二音频数据可以通过不同频率成分表示同一用户的相同语音。代表同一用户的相同语音的第一音频数据和第二音频数据可以指的是当用户说话时,分别由骨传导传感器和气传导传感器同时采集的第一音频数据和第二音频数据。由骨传导传感器采集的第一音频数据可以包括第一频率成分。第二音频数据可以包括第二频率成分。在一些实施例中,第二频率成分包括第一频率成分的至少一部分。第二音频数据中包括的语义信息可以与第一音频数据中包括的语义信息相同或不同。第二音频数据的声学特征与第一音频数据的声学特征相同或不同。例如,第一音频数据的某个频率成分的幅度可以与第二音频数据的同一频率成分的幅度不同。又例如,第一音频数据中小于某个频率点(例如,2000Hz)或在某个频率范围(例如,20Hz至2000Hz)内的频率成分可能多于第二音频数据中小于该频率点(例如,2000Hz)或在该频率范围(例如,20Hz至2000Hz)内的频率成分。第一音频数据中大于某一频率点(例如,3000Hz)或在某个频率范围(例如,3000Hz至20kHz)内的频率成分可能少于第二音频数据中大于该频率点(例如,3000Hz)或在该频率范围(例如,3000Hz至20kHz)内的频率成分。如本文所用,第一音频数据中小于某频率点(例如,2000Hz)或在某频率范围(例如,20Hz至2000Hz)内的频率成分多于第二音频数据中小于该频率点(例如,2000Hz)或在该频率范围(例如,20Hz至2000Hz)的频率成分可以指的是第一音频数据中小于该频率点(例如,2000Hz)或在该频率范围(例如,20Hz至2000Hz)内的频率成分的计数或数量大于第二音频数据中小于该频率点(例如,2000Hz)或在该频率范围(例如,20Hz至2000Hz)内的频率成分的计数或数量。
在430中,处理设备122(例如,预处理模块220)可以预处理第一音频数据或第二音频数据中的至少一个。经过预处理的第一音频数据和第二音频数据也可以分别被称为预处理后的第一音频数据和预处理后的第二音频数据。示例性预处理操作可以包括域变换操作、信号校准操作、音频重构操作、语音增强操作等。
可以执行域变换操作以将第一音频数据和/或第二音频数据从时域转换到频域或者从频域转换到时域。在一些实施例中,处理设备122可以通过执行傅立叶变换或逆傅立叶变换来执行域变换操作。在一些实施例中,为执行域变换操作,处理设备122可以对第一音频数据和/或第二音频数据执行分帧操作、加窗操作等。例如,第一音频数据可以分为一个或以上语音帧。每个语音帧可以是包括持续时间段(例如,5ms、10ms、15ms、20ms、25ms等)内的音频数据,每帧的音频数据在该持续时间段内可以被认为是近似稳定的。可以使用波分段函数对语音帧中的执行加窗操作以获取处理后的语音帧。如这里所使用的,波分割函数可以称为窗函数。示例性窗函数可包括Hanning窗、Hamming、Blackman-Harris窗等。最后,可以使用傅里叶变换操作基于处理后的语音帧将第一音频数据从时域转换到频率域。
信号校准操作可以用于统一第一音频数据和第二音频数据的数量级(例如,幅度)来消除由,例如骨传导传感器和气传导传感器之间的灵敏度差异引起的第一音频数据和/或第二音频数据的数量级之间的差异。在一些实施例中,处理设备122可以对第一音频数据和/或第二音频数据执行归一化操作以校准第一音频数据和/或第二音频数据,获得归一化的第一音频数据和/或归一化的第二音频数据。例如,处理设备122可以根据等式(1)确定归一化的第一音频数据和/或归一化的第二音频数据,如下:
Figure BDA0002200695650000171
其中,Snormalized指归一化的第一音频数据(或归一化的第二音频数据),Sinitial是指第一音频数据(或第二音频数据),|Smax|可以表示第一音频数据(或第二音频数据)的幅度绝对值中的最大值。
语音增强操作可以用于减少音频数据中(例如,第一音频数据和/或第二音频数据)的噪声或其他无关和不期望的信息。对第一音频数据(或归一化化的第一音频数据)和/或第二音频数据(或归一化的第二音频数据)执行的语音增强操作可以使用包括基于谱减法的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波器的语音增强算法、基于信号子空间的语音增强算法、基于听觉掩蔽效应的语音增强算法、基于独立成分分析的语音增强算法、神经网络技术等,或其组合。在一些实施例中,语音增强操作可以包括降噪操作。在一些实施例中,处理设备122可以对第二音频数据(或归一化的第二音频数据)执行降噪操作以获得降噪后的第二音频数据。在一些实施例中,归一化的第二音频数据和/或降噪的第二音频数据也可以被称为预处理后的第二音频数据。在一些实施例中,降噪操作可以包括使用维纳滤波器、谱减法、自适应算法、最小均方误差(MMSE)估计算法等,或其任何组合。
音频重构操作可以用于加强或增加初始骨导音频数据中(例如,第一音频数据或归一化的第一音频数据)大于某个频率点(例如,2000Hz、3000Hz)或在频率范围(例如,2000Hz至20kHz、3000Hz至20kHz)内骨导音频数据的频率成分以使得重构后的骨导音频数据相对于初始骨导音频数据(例如,第一音频数据或归一化的第一音频数据)具有改善的保真度。重构的骨导音频数据可以与没有或具有少量噪声的理想气导音频数据相似、接近或相同,并且重构骨导音频数据与初始骨导音频数据代表同一用户的相同语音,所述理想气导音频数据由气传导传感器与骨导传感器采集初始骨导音频数据的同一时间采集。重构的骨导音频数据可以等效于气导音频数据,也可以被称为对应于初始骨导音频数据的等效气导音频数据。如本文所使用的,与理想气导音频数据相似、接近或相同的重构的骨导音频数据可以指重构的骨导音频数据与理想气导音频数据之间的相似度可以大于某一阈值(例如,90%、80%、70%等)。关于重构的骨导音频数据、初始骨导音频数据和理想气导音频数据的更多描述可以在本申请的其他地方找到(例如,图10及其描述)。
在一些实施例中,处理设备122可以使用训练后的机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等,或其任何组合对第一音频数据进行重构以生成重构的第一音频数据。在一些实施例中,可以使用训练后的机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等其中一种方法以生成重构的第一音频数据。在一些实施例中,可以使用训练后的机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等中的至少两种方法生成重构的第一音频数据。例如,处理设备122可以通过使用训练后的机器学习模型重构第一音频数据来生成中间第一音频数据。处理设备122可以通过使用构造后的滤波器、谐波修正模型、稀疏矩阵技术等其中一种方法重构中间第一音频数据来生成重构的第一音频数据。又例如,处理设备122可以通过使用机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等其中一种方法重构第一音频数据以生成中间第一音频数据。处理设备122可以通过使用机器学习模型、构造后的滤波器器、谐波修正模型、稀疏矩阵技术等中的另一种方法重构第一音频数据以生成另一中间第一音频数据。处理设备122可以通过对中间第一音频数据和另一中间第一音频数据求平均以生成重构的第一音频数据。又例如,处理设备122可以通过使用机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等中两种以上方法重构第一音频数据以生成多个中间第一音频数据,处理设备122可以通过对多个中间第一音频数据求平均以生成重构的第一音频数据。
在一些实施例中,处理设备122可以使用训练后的机器学习模型重构第一音频数据(或归一化的第一音频数据)以获得重构的第一音频数据。重构的第一音频数据中高于某个频率点(例如,2000Hz、3000Hz)或在某个频率范围(例如,2000Hz至20kHz、3000Hz至20kHz等)内的频率成分相对于第一音频数据中高于该频率点(例如,2000Hz、3000Hz)或在该频率范围(例如,2000Hz至20kHz、3000Hz至20kHz等)内的频率成分增加。训练后的机器学习模型可以基于深度学习模型、传统机器学习模型等或其任何组合来构造。示例性深度学习模型可以包括卷积神经网络(CNN)模型、递归神经网络(RNN)模型、长短期记忆网络(LSTM)模型等。示例性的传统机器学习模型可以包括隐马尔可夫模型(HMM)、多层感知器(MLP)模型等。
在一些实施例中,可以通过使用多组训练数据训练初级机器学习模型以确定训练后的机器学习模型。多组训练数据中的每组训练数据可包括骨导音频数据和气导音频数据。一组训练数据也可以称为语音样本。在初级机器学习模型的训练过程中,语音样本中的骨导音频数据可以是初级机器学习模型的输入,语音样本中与骨导音频数据对应的气导音频数据可以是初级机器学习模型的期望输出。语音样本中的骨导音频数据和气导音频数据可以表示相同的语音,并且由骨传导传感器和气传导传感器在无噪声环境中分别同时采集。如这里所使用的,无噪点环境可以指环境中的一个或以上噪声评估参数(例如,噪声标准曲线、统计噪声水平等)满足一定的条件,例如小于某一阈值。经训练的机器学习模型可以被配置为提供骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间的对应关系。经训练的机器学习模型可基于对应关系重构骨导音频数据。在一些实施例中,多组训练数据中的骨导音频数据可以由骨传导传感器放置在用户(例如,测试者)身体的相同部位(例如,耳朵周围的区域)采集。在一些实施例中,采集用于训练机器学习模型的骨导音频数据的骨传导传感器所处身体的部位与采集待使用训练后的机器学习模型重构的骨导音频数据(例如,第一音频数据)的骨传导传感器所处的身体的部位一致和/或相同。例如,采集用于训练机器学习模型的每组训练数据中的骨导音频数据的骨传导传感器所处身体的部位可以与采集第一音频数据的骨传导传感器所处的身体的部位一致和/或相同骨导音频数据。再例如,如果采集第一音频数据的骨传导传感器所处的身体的部位是颈部,采集用于训练机器学习模型的骨导音频数据的骨传导传感器所处身体的部位也是颈部。用于采集多组训练数据的骨传导传感器放置在用户(例如,测试者)的身体部位会影响骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间的对应关系。因此,使用经训练的机器学习模型基于对应关系重构骨导音频数据会影响重构的骨导音频数据。由位于使用者身体的不同部位的骨传导传感器采集的多组训练数据可以生成骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间不同的对应关系。例如,相同配置的多个骨传导传感器可以位于身体的不同部位,例如乳突、太阳穴、头顶、外耳道等。多个骨传导传感器可以同时采集用户说话时生成的骨导音频数据。可以基于由多个骨传导传感器采集的骨导音频数据形成多个训练集。多个训练集中的每个训练集可包括由多个骨传导传感器中的其中一个骨传导传感器和气传导传感器采集的多组训练数据。多组训练数据中的每组训练数据可包括骨导音频数据和表示相同语音的气导音频数据。多个训练集中的每个训练集可用于训练机器学习模型以获得训练后的机器学习模型。可以基于多个训练集获得多个训练后的机器学习模型。多个训练后的机器学习模型可以提供特定骨导音频数据和重构的骨导音频数据之间的不同对应关系。例如,可以分别将相同的骨导音频数据输入到多个训练后的机器学习模型中以生成不同的重构的骨导音频数据。在一些实施例中,不同配置的骨传导传感器采集的骨导音频数据(例如,频率响应曲线、信号强度、声学特征等)可以是不同的。因此,采集用于训练机器学习模型的骨导音频数据的骨传导传感器可以与采集待使用经训练的机器学习模型重构的骨导音频数据(例如,第一音频数据)的骨传导传感器在配置上是相同。在一些实施例中,向使用者身体的某一部位施加的压力不同,采集的骨导音频数据(例如,频率响应曲线)不同。因此,采集用于训练机器学习模型的骨导音频数据的压力可以与用于采集使用经训练的机器学习模型重构的骨导音频数据(例如,第一音频数据)的压力相同。关于确定训练后的机器学习模型和/或重构骨导音频数据的更多描述可以参考图5及其描述骨导音频数据。
在一些实施例中,处理设备122(例如,预处理模块220)可以使用构造后的滤波器重构第一音频数据(或归一化的第一音频数据)以获得重构的骨导音频数据。所述构造后的滤波器可以被配置用于提供特定气导音频数据与对应于特定气导音频数据的特定骨导音频数据之间的关系。如这里所使用的,相互对应的骨导音频数据和气导音频数据可以指骨导音频数据和气导音频数据表示同一用户的相同语音。特定的气导音频数据也可以被称为对应于特定的骨导音频数据的等效气导音频数据或者重构的骨导音频数据。特定气导音频数据中高于某频率点(例如,2000Hz、3000Hz)或在某频率范围(例如,2000Hz至20kHz、3000Hz至20kHz等)内的频率成分多于特定骨导音频数据中高于该频率点(例如,2000Hz、3000Hz)或在该频率范围(例如,2000Hz至20kHz、3000Hz至20kHz等)内的骨导音频数据频率成分。处理设备122可以基于该关系将特定的骨导音频数据转换为特定的气导音频数据。例如,处理设备122可以使用构造后的滤波器将第一音频数据转换为重构的第一音频数据以获取重构的第一音频数据。在一些实施例中,语音样本中的骨导音频数据可以表示为d(n),语音样本中的相应的气导音频数据可以表示为s(n)。骨导音频数据d(n)以及相应的气导音频数据s(n)可以基于初始声音激励信号e(n)分别通过骨传导系统和气传导系统确定,骨传导系统和气传导系统可分别等效于滤波器B和滤波器V。然后构造后的滤波器可以等效于滤波器H。滤波器H可以根据如下所示的等式(2)确定:
Figure BDA0002200695650000201
在一些实施例中,可以使用,例如,长时谱技术以确定所构造后的滤波器。例如,处理设备122可以根据如下所示的等式(3)确定构造后的滤波器:
Figure BDA0002200695650000202
其中,
Figure BDA0002200695650000203
指的是频率域中构造后的滤波器,
Figure BDA0002200695650000204
是指对应于气导音频数据s(n)的长时谱表达式,
Figure BDA0002200695650000205
是指对应于骨导音频数据d(n)的长时谱表达式。在一些实施例中,处理设备122可以获取一组或多组的骨导音频数据和气导音频数据(也可称语音样本),每组中的骨导音频数据和气导音频数据分别由骨传导传感器和气传导传感器当操作员(例如,测试员)在无噪声环境中说话时采集。处理设备122可以根据等式(3)基于一组或多组的骨导音频数据和气导音频数据确定构造后的滤波器。例如,处理设备122可以根据等式(3)基于每组中相互对应的骨导音频数据和气导音频数据构造候选滤波器。处理设备122可以基于候选滤波器确定构造后的滤波器。在一些实施例中,处理设备122可以对初始滤波器H(f)执行逆傅立叶变换(IFT)(例如,快速IFT)操作,以在时域中获得构造后的滤波器。
在一些实施例中,采集用于确定构造后的滤波器的骨导音频数据的骨传导传感器所处的身体部位与采集待使用构造后的滤波器重构的骨导音频数据的骨传导传感器所处的身体的部位相同。例如,采集用于确定构造后的滤波器的骨导音频数据的骨传导传感器所处身体的部位可以与采集第一音频数据的骨传导传感器所处的身体的部位相同。再例如,如果采集第一音频数据的骨传导传感器所处的身体的部位是颈部,采集用于确定构造的滤波器的骨导音频数据的骨传导传感器所处身体的部位也是颈部。由位于身体的不同部位的骨传导传感器采集的多组训练数据可以生成不同的过滤器。例如,可以获取在用户说话时通过由位于使用者身体第一部位的骨传导传感器和气导传感器分别采集第一组的骨导音频数据与对应的气导音频数据。可以获取在用户说话时通过由位于使用者身体第二部位的骨传导传感器和气导传感器分别采集的第二组的骨导音频数据和对应的气导音频数据。可以基于第一组的骨导音频数据和对应的气导音频数据确定第一滤波器。可以基于第二组的骨导音频数据和对应的气导音频数据确定第二滤波器。第一滤波器和第二滤波器不同。即第一滤波器和第二滤波器提供的骨导音频数据和气导音频数据之间对应关系不同。
在一些实施例中,处理设备122(例如,预处理模块220)可以使用谐波修正模型重构第一音频数据(或归一化的第一音频数据)以获得重构的第一音频数据。谐波修正模型可以被配置用于提供特定气导音频数据的幅度谱与对应于特定气导音频数据的特定骨导音频数据的幅度谱之间的关系。如这里所使用的,特定的气导音频数据也可以被称为对应于特定的骨导音频数据的等效气导音频数据或重构的骨导音频数据。特定气导音频数据的幅度谱也可以被称为特定骨导音频数据的校正后幅度谱。处理设备122可以确定频率域中的第一音频数据(或归一化的第一音频数据)的幅度谱和相位谱。处理设备122可以使用谐波修正模型来校正第一音频数据(或归一化的第一音频数据)的幅度谱以获得第一音频数据(或归一化的第一音频数据)的校正后的幅度谱。然后,处理设备122可以基于校正后的幅度谱和第一音频数据(或归一化的第一音频数据)的相位谱确定重构的第一音频数据。关于使用谐波修正模型重构第一音频数据的更多描述可以参考本申请的其他地方的描述(例如,图6及其描述)。
在一些实施例中,处理设备122(例如,预处理模块220)可以使用稀疏矩阵技术重构第一音频数据(或标准化的第一音频数据)以获得重构的第一音频数据。例如,处理设备122可以获取第一变换关系,其被配置用于将初始骨导音频数据(例如,第一音频数据)的字典矩阵转换为与初始骨导音频数据相对应的重构的骨导音频数据(例如,重构的第一音频数据)的字典矩阵。处理设备122可以获取第二变换关系,其被配置用于将初始骨导音频数据的稀疏码矩阵转换为与初始骨导音频数据相对应的重构的骨导音频数据的稀疏码矩阵。处理设备122可以使用第一变换关系基于第一音频数据的字典矩阵确定重构的第一音频数据的字典矩阵。处理设备122可以使用第二变换关系基于第一音频数据的稀疏码矩阵确定重构的第一音频数据的稀疏码矩阵。处理设备122可以基于重构的第一音频数据的所确定的字典矩阵和稀疏码矩阵确定重构的第一音频数据。在一些实施例中,第一变换关系和/或第二变换关系可以是音频信号生成系统100的默认设置。在一些实施例中,处理设备122可以基于一组或多组的相互对应的骨导音频数据组和气导音频数据确定第一变换关系和/或第二变换关系。关于使用稀疏矩阵技术重构第一音频数据的更多描述可以参考本申请的其他地方的描述(例如,图7及其描述)。
在440中,处理设备122(例如,音频数据生成模块230)可以基于第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)生成第三音频数据。第三音频数据中高于某个频率点(或阈值)的频率成分相对于第一音频数据(或预处理后的第一音频数据)中高于该频率点(或阈值)的频率成分增加。换句话说,第三音频数据中高于该频率点(或阈值)的频率成分可以多于第一音频数据(或预处理后的第一音频数据)中高于该频率点(或阈值)的频率成分。在一些实施例中,与第三音频数据相关联的噪声水平可以低于与第二音频数据(或预处理后的第二音频数据)相关联的噪声水平。如本文所用,第三音频数据中高于该频率点(或阈值)的频率成分相对于第一音频数据(或预处理后的第一音频数据)中高于该频率点的频率成分的增加可以指第三音频数据中频率高于该频率点的波(例如,正弦波或谐波)的计数或数量大于第一音频数据中频率高于该频率点的波(例如,正弦波或谐波)的计数或数量。在一些实施例中,频率点可以是20Hz至20kHz范围内的常数。例如,频率点可以是2000Hz、3000Hz、4000Hz、5000Hz、4000Hz等。在一些实施例中,频率点可以是第三音频数据和/或第一音频数据中的频率成分的频率值。
在一些实施例中,处理设备122可以基于第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)根据一个或以上频率阈值生成第三音频数据。例如,处理设备122可以至少部分地基于第一音频数据(或预处理后的第一音频数据)和/或第二音频数据(或预处理后的第二音频数据)确定一个或以上频率阈值。处理设备122可以根据一个或以上频率阈值将第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)分别分成多个片段。处理设备122可以分别确定第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)的多个片段中每个片段的权重。然后处理设备122可以基于第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)的多个片段中每个片段的权重确定第三音频数据。
在一些实施例中,处理设备122可以确定单一频率阈值。处理设备122可以根据单一频率阈值在频率域中拼接第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)以生成第三音频数据。例如,处理设备122可以使用第一滤波器确定第一音频数据(或预处理后的第一音频数据)中包括低于单一频率阈值的频率成分的低频部分。处理设备122可以使用第二滤波器确定第二音频数据(或预处理后的第二音频数据)中包括高于单一频率阈值的频率成分的高频部分。处理设备122可以拼接和/或组合第一音频数据(或预处理后的第一音频数据)的低频部分和第二音频数据(或预处理后的第二音频数据)的高频部分以生成第三音频数据。在一些实施例中,第一滤波器可以是以单一频率阈值作为截止频率的低通滤波器,其可以允许第一音频数据中低于单一频率阈值的频率成分通过。第二滤波器可以是以单一频率阈值作为截止频率的高通滤波器,其可以允许第二音频数据中高于单一频率阈值的频率成分通过。在一些实施例中,处理设备122可以至少部分地基于第一音频数据(或预处理后的第一音频数据)和/或第二音频数据(或预处理后的第二音频数据)确定单一频率阈值。关于确定单一频率阈值的更多描述可以参考图8及其描述中找到。
在一些实施例中,处理设备122可以至少部分地基于单一频率阈值分别确定第一音频数据(或预处理后的第一音频数据)的低频部分和第一音频数据(或预处理后的第一音频数据)的高频部分的第一权重和第二权重。处理设备122可以至少部分地基于单一频率阈值分别确定第二音频数据(或预处理后的第二音频数据)的低频部分和第二音频数据的高频部分(或预处理后的第二音频数据)的第三权重和第四权重。在一些实施例中,处理设备122可以分别使用第一权重、第二权重、第三权重和第四权重对第一音频数据的低频部分(或预处理后的第一音频数据)、第一音频数据(或预处理后的第一音频数据)的高频部分、第二音频数据(或预处理后的第二音频数据)的低频部分、第二音频数据(或预处理后的第二音频数据)的高频部分进行加权以确定第三音频数据。关于确定第三音频数据(或拼接的音频数据)的更多描述可以在图8其描述中找到。
在一些实施例中,处理设备122可以至少部分地基于第一音频数据(或预处理后的第一音频数据)和/或第二音频数据(或预处理后的第二音频数据)分别确定对应于第一音频数据(或预处理后的第一音频数据)和对应于第二音频数据(或预处理后的第二音频数据)的权重。处理设备122可以使用对应于第一音频数据(或预处理后的第一音频数据)的权重和对应于第二音频数据(或预处理后的第二音频数据)的权重通过对第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)进行加权以确定第三音频数据。关于确定第三音频数据的更多描述可以在本申请的其他地方找到(例如,图9及其描述)。
在450中,处理设备122(例如,音频数据生成模块230)可以基于第三音频数据确定表示用户语音的目标音频数据,目标音频数据具有比第一音频数据和第二音频数据更高的保真度。目标音频数据可以表示第一音频数据和第二音频数据所代表的用户的语音。如本文所用,保真度可以用于表示输出音频数据(例如,目标音频数据、第一音频数据、第二音频数据)与原始输入音频数据(例如,用户的语音)之间的相似度。保真度可表示输出音频数据(例如,目标音频数据、第一音频数据、第二音频数据)的可懂度。
在一些实施例中,处理设备122可以将第三音频数据指定为目标音频数据。在一些实施例中,处理设备122可以对第三音频数据执行后处理操作以获取目标音频数据。在一些实施例中,后处理操作可以包括降噪操作、域变换操作(例如,傅立叶变换(FT)操作)等,或其组合。在一些实施例中,对第三音频数据执行的降噪操作可以包括使用维纳滤波器、谱减法、自适应算法、最小均方误差(MMSE)估计算法等,或其任何组合。在一些实施例中,对第三音频数据执行的降噪操作可以与对第二音频数据执行的降噪操作相同或不同。例如,对第二音频数据执行的降噪操作和对第三音频数据执行的降噪操作都可以使用谱减法。又例如,对第二音频数据执行的降噪操作可以使用维纳滤波器,并且对第三音频数据执行的降噪操作可以使用谱减法。在一些实施例中,处理设备122可以对频率域中的第三音频数据执行逆傅里叶操作以获得时域中的目标音频数据。
在一些实施例中,处理设备122可以经由网络150将信号发送到客户终端(例如,终端130)、存储设备140和/或任何其他存储设备(未在音频信号生成系统100中示出)。该信号可以包括目标音频数据。该信号也可以被配置为指示所述客户终端播放目标音频数据。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。例如,可以省略操作450。又例如,操作410和420可以集成到单个操作中。
图5是根据本申请的一些实施例所示的使用训练后的机器学习模型重构骨导音频数据的示例性过程的流程图。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程500可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图5中示出并在下面描述的过程500的操作的顺序是非限制性的。在一些实施例中,可以执行过程500的一个或以上操作以实现如图4所描述的操作430的至少一部分。
在510中,处理设备122(例如,获取模块210)可以获取骨导音频数据。在一些实施例中,骨导音频数据可以是当用户说话时由骨传导传感器采集的原始音频数据(例如,第一音频数据)(例如,图1及其描述),如本申请中其他地方所述。例如,用户的语音可以由骨传导传感器(例如,骨传导麦克风112)采集以生成电信号(例如,模拟信号或数字信号)(即骨导音频数据)。骨传导传感器可以经由网络150将电信号传输到服务器120、终端130和/或存储设备140。在一些实施例中,骨导音频数据包括可以反映用户语音内容的声学特征和/或语义信息。示例性声学特性可包括与持续时间相关联的特征、与能量相关联的特征、与基频率相关联的特征、与频率谱相关联的特征、与相位谱相关联的特征等,如本申请中其他地方所述(例如,图4及其描述)。
在520中,处理设备122(例如,获取模块210)可以获得训练后的机器学习模型。可以通过使用多组训练数据训练初级机器学习模型来提供训练后的机器学习模型。在一些实施例中,训练后的机器学习模型可以用于处理特定的骨导音频数据以获取经处理的骨导音频数据。处理后的骨导音频数据中也可成为重构的骨导音频数据。处理后的骨导音频数据中高于某一频率阈值(例如,800Hz、2000Hz、3000Hz、4000Hz等)的骨导音频数据频率成分相对于特定骨导音频数据中高于该频率阈值或频率点(例如,800Hz、2000Hz、3000Hz、4000Hz等)骨导音频数据的频率成分会增加。经处理的骨导音频数据可以与没有或具有少量噪声的理想气导音频数据相似或相同,并且经处理的骨导音频数据与未经处理的特定骨导音频数据代表同一用户的相同语音,所述理想气导音频数据由气传导传感器在与骨导传感器采集特定骨导音频数据的同一时间采集。如本文所用,经处理的骨导音频数据与没有或具有少量噪声的理想气导音频数据相似或相同可以指经处理的骨导音频数据的声学特征与理想气导音频数据的声学特征之间的相似度大于某一阈值(例如,0.9、0.8、0.7等)。例如,在无噪声环境中,当用户讲话时,分别通过骨传导麦克风112和气传导麦克风114同时采集骨导音频数据和气导音频数据。由训练后的机器学习模型处理骨导音频数据生成经处理的骨导音频数据,经处理的骨导音频数据与相应的气传导麦克风114采集的气导音频数据具有相同或相似的声学特征。在一些实施例中,处理设备122可以从终端130、存储设备140或任何其他存储设备获得训练后的机器学习模型。
在一些实施例中,初级机器学习模型可以基于深度学习模型、传统机器学习模型等或其任何组合来构造。深度学习模型可以包括卷积神经网络(CNN)模型、递归神经网络(RNN)模型、长短期记忆网络(LSTM)模型等,或其任何组合。传统的机器学习模型可以包括隐马尔可夫模型(HMM)、多层感知器(MLP)模型等,或其任何组合。在一些实施例中,初级机器学习模型可以包括多个层,例如,输入层、多个隐藏层和输出层。多个隐藏层可以包括一个或以上卷积层、一个或以上池化层、一个或以上批归一化层、一个或以上激活层、一个或以上完全连接层、损失函数层等。每层可以包括多个节点。在一些实施例中,初级机器学习模型可以由至少两个结构参数和至少两个学习参数(或者训练参数)来定义。可以通过使用至少两组训练数据训练初级机器学习模型,改变学习参数而结构参数。在训练初级机器学习模型之前,用户可以设置和/或调整结构参数。机器学习模型的示例性结构参数可以包括层内核的大小、层的总数(或数量)、每层中节点的数量(或数量)、学习率、批尺寸、步长等。例如,如果初级机器学习模型包括长短期记忆模型,则长短期记忆模型可以包括具有2个节点的一个输入层、四个隐藏层,以及具有2个节点的一个输出层,每个隐藏层包括30个节点。长短期记忆模型的时间移动步长可以是65,学习速率可以是0.003。机器学习模型的示例性学习参数可以包括两个连接节点之间的连接权重、与节点有关的偏置矢量等。两个连接节点之间的连接权重可以被配置为表示节点的输出值的作为另一个连接节点的输入值的比重。与节点有关的偏置矢量可以被配置用于控制偏离原点的节点的输出值。
在一些实施例中,可以基于机器学习模型训练算法通过使用多组训练数据训练初级机器学习模型以确定训练后的机器学习模型。在一些实施例中,多组训练数据中的一个或以上组训练数据可以在无噪声环境中获取,例如,在消音室中。一组训练数据可以包括特定的骨导音频数据和相应的特定气导音频数据。一组训练数据中的特定骨导音频数据和相应的特定气导音频数据可以同时通过骨传导传感器(例如,骨传导传声器112)和气传导传感器(例如,气传导传声器114)从特定用户获得。在一些实施例中,多组训练数据中的至少部分组中的每组训练数据可以包括特定骨导音频数据和对应的重构的骨导音频数据,重构的骨导音频数据可以通过使用如本申请中其他地方所述的一个或以上重构技术重构特定骨导音频数据而生成。示例性机器学习模型训练算法可包括梯度下降算法、牛顿算法、拟牛顿算法、列文伯格-马夸尔特(Levenberg-Marquardt)算法、共轭梯度算法等,或其组合。经训练的机器学习模型可以被配置为提供骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间的对应关系。经训练的机器学习模型可基于对应关系重构骨导音频数据。在一些实施例中,多组训练数据中的骨导音频数据可以由骨传导传感器放置在用户(例如,测试者)身体的相同部位(例如,耳朵周围的区域)采集。在一些实施例中,采集用于训练机器学习模型的骨导音频数据的骨传导传感器所处身体的部位可以与采集待使用训练后的机器学习模型重构的骨传导传感器数据(例如,第一音频数据)的骨传导传感器所处的身体的部位相同。例如,采集用于训练机器学习模型的每组训练数据中的骨导音频数据的骨传导传感器所处身体的部位可以与采集第一音频数据的骨传导传感器所处的身体的部位相同。再例如,如果采集第一音频数据的骨传导传感器所处的身体的部位是颈部,采集用于训练机器学习模型的骨导音频数据的骨传导传感器所处身体的部位也是颈部。
用于采集多组训练数据的骨传导传感器放置在用户(例如,测试者)的身体部位不同影响骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间的对应关系。因此,使用经训练的机器学习模型重构骨导音频数据会影响基于对应关系生成的重构的骨导音频数据。由位于使用者身体的不同部位的骨传导传感器采集的多组训练数据可以生成骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间不同的对应关系。例如,相同配置的多个骨传导传感器可以位于身体的不同部位,例如乳突、太阳穴、头顶、外耳道等。多个骨传导传感器可以同时采集用户说话时生成的骨导音频数据。可以基于由多个骨传导传感器采集的骨导音频数据形成多个训练集。多个训练集中的每个训练集可包括由多个骨传导传感器中的其中一个骨传导传感器和气传导传感器采集的多组训练数据。多组训练数据中的每组训练数据可包括骨导音频数据和表示相同语音的气导音频数据。多个训练集中的每个训练集可用于训练机器学习模型以获得训练后的机器学习模型。可以基于多个训练集获得多个训练后的机器学习模型。多个训练后的机器学习模型可以提供特定骨导音频数据和重构的骨导音频数据之间的不同对应关系。例如,可以分别将相同的骨导音频数据输入到多个训练后的机器学习模型中以生成不同的重构的骨导音频数据。在一些实施例中,不同配置的骨传导传感器采集的骨导音频数据(例如,频率响应曲线、信号强度、声学特征等)可以是不同的。因此,用于采集训练机器学习模型骨导音频数据的骨传导传感器可以与用于采集待使用经训练的机器学习模型重构的骨导音频数据(例如,第一音频数据)的骨传导传感器在配置上是相同。在一些实施例中,骨传导传感器向使用者身体的某一部位施加一定范围内(例如0N至1N,或0N至0.8N)的压力不同会使得采集的骨导音频数据(例如,频率响应曲线)不同。因此,采集用于训练机器学习模型的骨导音频数据的压力可以与采集待使用经训练的机器学习模型的重构的骨导音频数据(例如,第一音频数据)的压力相同。
在一些实施例中,训练后的机器学习模型可以通过执行至少两次迭代来获得,以更新初级机器学习模型的一个或以上学习参数。对于至少两次迭代中的每次迭代,可以将特定的一组训练数据输入到初级机器学习模型中。例如,特定训练数据组的特定骨导音频数据可以输入到初级机器学习模型的输入层中,并且,特定训练数据组的特定气导音频数据可以输入到初级机器学习模型的输出层,作为初级机器学习模型对应于特定骨导音频数据(即输入)的期望输出。初级机器学习模型可以提取特定训练数据组中的特定骨导音频数据和特定气导音频数据的一个或以上声学特征(例如,持续时间特征、振幅特征、基频特征等)。基于提取的特征,初级机器学习模型可以确定对应于特定骨导音频数据(即输入)的预测输出。然后,基于代价函数将与特定骨导音频数据相对应的预测输出与输出层的期望输出(即输入的特定气导音频数据)进行比较。初级机器学习模型的代价函数可以被配置用于评估初级机器学习模型的估计值(例如,预测输出)与实际值(例如,期望输出或输入的特定气导音频数据)之间的差异。如果代价函数的值超过当前迭代中的阈值,可以调整和更新初级机器学习模型的学习参数,以使代价函数的值(即,预测输出和输入的特定气导音频数据之间的差值)小于阈值。因此,在下一次迭代中,可以将另一组训练数据输入到初级机器学习模型中如上所述训练初级机器学习模型。然后,可以执行至少两个迭代以更新初级机器学习模型的学习参数,直到满足终止条件。终止条件可以指示初级机器学习模型是否被充分训练。例如,如果与初级机器学习模型相关联的代价函数的值最小或小于阈值(例如,常数),则可以满足终止条件。又例如,如果代价函数的值收敛,则可以满足终止条件。如果在两个或以上连续迭代中代价函数的值的变化小于阈值(例如,常数),则可以认为代价函数已收敛。作为又一示例,当在训练过程中执行指定次数的迭代时,可以满足终止条件。可以基于更新的学习参数确定训练后的机器学习模型。在一些实施例中,可以将训练后的机器学习模型发送到存储设备140/存储模块240或任何其他存储设备用于存储。
在530中,处理设备122(例如,预处理模块220)可以使用训练后的机器学习模型处理骨导音频数据以获取重构的骨导音频数据。在一些实施例中,处理设备122可以将骨导音频数据输入到训练后的机器学习模型中,然后训练后的机器学习模型可以输出经处理的骨导音频数据。在一些实施例中,处理设备122可以提取骨导音频数据的声学特征,并将提取的骨导音频数据的声学特征输入到训练后的机器学习模型中。训练机学习模型可输出经处理的骨导音频数据。经处理的骨导音频数据中高于频率阈值或频率点(例如,800Hz、2000Hz、3000Hz等)的骨导音频数据频率成分相对于未经处理的骨导音频数据中高于该频率阈值或频率点骨导音频数据的频率成分增加。在一些实施例中,处理设备122可以将处理后的骨导音频数据发送到客户终端(例如,终端130)。客户终端(例如,终端130)可以将处理后的骨导音频数据转换为语音并向用户播放语音。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。
图6是根据本申请的一些实施例所示的基于谐波修正模型重构骨导音频数据的示例性过程的流程图。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程600可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图6中示出并在下面描述的过程600的操作的顺序是非限制性的。在一些实施例中,可以执行过程600的一个或以上操作以实现如结合图4所描述的操作430的至少一部分。
在610中,处理设备122(例如,获取模块210)可以获取骨导音频数据。在一些实施例中,如结合操作410所述,当用户说话时,骨导音频数据可以是骨传导传感器采集的原始音频数据(例如,第一音频数据)。例如,用户的语音可以骨传导传感器(例如,骨传导麦克风112)采集以生成电信号(例如,模拟信号或数字信号)(即,骨导音频数据)。在一些实施例中,骨导音频数据可以包括具有不同频率和幅度的多个波。频率域中的骨导音频数据可以表示为包括多个元素的矩阵。多个元素中的每个元素可以表示波的频率和幅度。
在620中,处理设备122(例如,预处理模块220)可以确定骨导音频数据的幅度谱和相位谱。在一些实施例中,处理设备122可以通过对骨导音频数据执行傅里叶变换(FT)操作以确定骨导音频数据的幅度谱和相位谱。处理设备122可以确定频率域中的骨导音频数据的幅度谱和相位谱。例如,处理设备122可以利用峰值检测技术,包括但不限于谱包络估计声码器算法(SEEVOC)来检测得到骨导音频数据中波的峰值。处理设备122可以基于波的峰值确定幅度谱和相位谱。例如,波的幅度为波峰到波谷之间的距离的一半。
在630中,处理设备122(例如,预处理模块220)可以获得谐波修正模型。谐波修正模型可以被配置用于提供特定气导音频数据的幅度谱与对应于特定气导音频数据的特定骨导音频数据的幅度谱之间的关系。可以基于所述关系和特定骨导音频数据的幅度谱确定对应于所述特定骨导音频数据的特定气导音频数据的幅度谱。如这里所使用的,特定的气导音频数据也可以被称为对应于特定的骨导音频数据的等效气导音频数据骨导音频数据或重构的骨导音频数据。
在一些实施例中,谐波修正模型可以是音频信号生成系统100的默认设置。在一些实施例中,处理设备122可以从存储设备140、存储模块240或任何其他存储设备获取谐波修正模型。在一些实施例中,谐波修正模型可以基于一组或多组骨导音频数据和相应的气导音频数据的确定。每组中的骨导音频数据和相应的气导音频数据可以由骨传导传感器和气传导传感器由操作者(例如,测试人员)在无噪声环境中说话时同时采集。骨传导传感器和气传导传感器可以与用于采集第一音频数据的骨传导传感器和用于采集第二音频数据的气传导传感器相同或不同。在一些实施例中,可以基于一组或多组骨导音频数据组和相应的气导音频数据根据操作a1至a3确定谐波修正模型。在操作a1中,处理设备122可以使用峰值检测技术(例如,谱包络估计声码器算法(SEEVOC)确定每组中的骨导音频数据的幅度谱和每组中相应的气导音频数据的幅度谱。在操作a2中,处理设备122可以基于每个组中的骨导音频数据和相应的气导音频数据的幅度谱确定候选校正矩阵。例如,处理设备122可以基于每组中气导音频数据的幅度谱与相应的骨气导音频数据的幅度谱的比值确定候选校正矩阵。在操作a3中,处理设备122可以基于一组或多组中每组骨导音频数据和对应的气传导音频数对应的候选校正矩阵确定谐波修正模型。例如,处理设备122可以确定一组或多组骨导音频数据及其对应的气导音频数据所对应的候选校正矩阵的平均值为谐波校正模型。
在一些实施例中,采集用于确定谐波修正模型的骨导音频数据的骨传导传感器所处身体的部位可以与采集待使用谐波修正模型重构的骨导音频数据的骨传导传感器所处的身体的部位一致和/或相同。例如,采集用于确定谐波修正模型的骨导音频数据的骨传导传感器所处身体的部位可以与采集第一音频数据的骨传导传感器所处的身体的部位相同。再例如,如果采集第一音频数据的骨传导传感器所处的身体的部位是颈部,采集用于确定谐波修正模型的骨导音频数据的骨传导传感器所处身体的部位也是颈部。由位于使用者身体的不同部位的骨传导传感器采集的多组数据可以生成不同的谐波修正模型。例如,可以在用户说话时通过位于使用者身体第一部位的骨传导传感器和气导传感器获取第一组的骨导音频数据与对应的气导音频数据。可以在用户说话时通过位于使用者身体第二部位的骨传导传感器和气导传感器获取第二组的骨导音频数据和对应的气导音频数据。可以基于第一组的骨导音频数据和对应的气导音频数据确定第一谐波修正模型。可以基于第二组的骨导音频数据和对应的气导音频数据确定第二谐波修正模型。第一谐波修正模型和第二谐波修正模型不同。第一谐波修正模型和第二谐波修正模型提供的特定气导音频数据的幅度谱与对应于特定气导音频数据的特定骨导音频数据的幅度谱之间的对应关系不同。基于第一谐波修正模型和第二谐波修正模型重构同一骨导音频数据得到的重构骨导音频数据不同。
在640中,处理设备122(例如,预处理模块220)可以校正骨导音频数据的幅度谱以获得骨导音频数据的校正后幅度谱。在一些实施例中,谐波修正模型可以包括校正矩阵,该校正矩阵包括与骨导音频数据(例如,图4中所述的第一音频数据)的幅度谱中的每个元素相对应的权重系数。如这里使用的,幅度谱中的元素可以指波(即,频率成分)的幅度。处理设备122可以通过将校正矩阵与骨导音频数据(例如,图4中所述的第一音频数据)的幅度谱相乘来校正骨导音频数据(例如,图4中所述的第一音频数据或归一化的第一音频数据)的幅度谱,以获得骨导音频数据(例如,图4中所述的第一音频数据)的校正后的幅度谱。
在650中,处理设备122(例如,预处理模块220)可以骨导音频数据基于校正后的幅度谱和骨导音频数据的相位谱确定重构的骨导音频数据。在一些实施例中,处理设备122可以对校正后的幅度谱和骨导音频数据的相位谱执行逆傅里叶变换,以获得重构的骨导音频数据。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。
图7是根据本申请的一些实施例所示的基于稀疏矩阵技术重构骨导音频数据的示例性过程的流程图。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程700可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图7中示出并在下面描述的过程700的操作的顺序是非限制性的。在一些实施例中,可以执行过程700的一个或以上操作以实现如结合图4所描述的操作430的至少一部分。
在710中,处理设备122(例如,获取模块210)可以获取骨导音频数据。在一些实施例中,如结合操作410所述,当用户说话时,骨导音频数据可以是由骨传导传感器采集的原始音频数据(例如,第一音频数据)。例如,用户的语音可以由骨传导传感器(例如,骨传导麦克风112)采集以生成电信号(例如,模拟信号或数字信号)(即骨导音频数据)。在一些实施例中,骨导音频数据可以包括具有不同频率和幅度的多个波。频率域中的骨导音频数据可以表示为矩阵X。矩阵X可以基于字典矩阵D和稀疏码矩阵C确定。例如,可以根据等式(4)确定音频数据:
X≈DC (4)。
在720,处理设备122(例如,预处理模块220)可以获得第一变换关系,用于将骨导音频数据的字典矩阵转换为与骨导音频数据相对应的重构骨导音频数据的字典矩阵。在一些实施例中,第一变换关系可以是音频信号生成系统100的默认设置。在一些实施例中,处理设备122可以从存储设备140、存储模块240或任何其他存储设备获得第一变换关系。在一些实施例中,可以基于一组或多组骨导音频数据和相应的气导音频数据(即语音样本)确定第一变换关系。每组中的骨导音频数据和相应的气导音频数据可以在无噪声环境中分别由骨传导传感器和气传导传感器在操作者(例如,测试者)说话时同时采集。例如,处理设备122可以根据操作740中所述的确定每组数据中骨导音频数据的字典矩阵和骨导音频数据相应的气导音频数据字典矩阵。处理设备122可以将每组数据中气导音频数据的字典矩阵除以相应的骨导音频数据的字典矩阵,用于一组或多组骨导音频数据和相应的气导音频数据以获得候选第一变换关系。在一些实施例中,处理设备122可以基于多组骨导音频数据和相应的气导音频数据的确定多个候选第一变换关系。处理设备122可以对多个候选第一变换关系求平均以获得第一变换关系。在一些实施例中,处理设备122可以将多个候选第一变换关系中的一个确定为第一变换关系。
在730,所述处理设备122(例如,预处理模块220)可以获得第二变换关系,用于将骨导音频数据的稀疏码矩阵转换为与骨导音频数据相对应的重构骨导音频数据的稀疏码矩阵。在一些实施例中,第二变换关系可以是音频信号生成系统100的默认设置。在一些实施例中,处理设备122可以从存储设备140、存储模块240或任何其他存储设备获取第二变换关系。在一些实施例中,可以基于一组或多组骨导音频数据和相应的气导音频数据的确定第二变换关系。例如,处理设备122可以根据操作740所述的确定一组或多组中每组数据中骨导音频数据的稀疏码矩阵和骨导音频数据相应的气导音频数据的稀疏码矩阵。处理设备122可以通过气导音频数据的稀疏码矩阵除以相应的骨导音频数据的稀疏码矩阵以获得候选第二变换关系。在一些实施例中,处理设备122可以确定基于一组或多组的骨导音频数据和相应的气导音频数据确定一个或多个候选第二变换关系。处理设备122可以对一个或多个候选第二变换关系求平均值以获得第二变换关系。在一些实施例中,处理设备122可以将一个或多个候选第二变换关系中的一个确定为第二变换关系。
在一些实施例中,采集用于确定第一变换关系(和/或第二变换关系)的骨导音频数据的骨传导传感器所处身体的部位可以与采集待使用第一变换关系(和/或第二变换关系)重构的骨导音频数据的骨传导传感器所处的身体的部位相同。例如,采集用于确定第一变换关系(和/或第二变换关系)的骨导音频数据的骨传导传感器所处身体的部位可以与采集第一音频数据的骨传导传感器所处的身体的部位相同。再例如,如果采集第一音频数据的骨传导传感器所处的身体的部位是颈部,采集用于确定第一变换关系(和/或第二变换关系)的骨导音频数据的骨传导传感器所处身体的部位也是颈部。由位于使用者身体的不同部位的骨传导传感器采集的不同骨导音频数据可以生成不同的第一变换关系(和/或第二变换关系)。基于不同第一变换关系(和/或第二变换关系)重构相同的骨导音频数据可以获得不同的重构后的骨导音频数据。
在740中,处理设备122(例如,预处理模块220)可以基于骨导音频数据(例如,图4中所述的第一音频数据或归一化的第一音频数据)的字典矩阵使用第一变换关系确定重构的骨导音频数据(例如,图4中所述的重构的第一音频数据)的字典矩阵。例如,处理设备122可以将第一变换关系(例如,以矩阵形式)与骨导音频数据(例如,图4中所述的第一音频数据或归一化的第一音频数据)的字典矩阵相乘,以获得重构的骨导音频数据(例如,图4中所述的重构的第一音频数据)的字典矩阵。处理设备122可以通过执行至少两次迭代确定音频数据(例如,骨导音频数据(例如,第一音频数据)、语音样本的骨导音频数据和/或气导音频数据)的字典矩阵和/或稀疏码矩阵。在执行至少两个迭代之前,处理设备122可初始化音频数据(例如,第一音频数据)的字典矩阵以获取初始字典矩阵。例如,处理设备122可以将初始字典矩阵中的每个元素设置为0或1。在每次迭代中,处理设备122可以基于音频数据(例如,第一音频数据)和初始字典矩阵利用,例如正交匹配追踪(OMP)算法确定音频数据(例如,第一音频数据)的估计稀疏码矩阵。处理设备122可以基于音频数据(例如,第一音频数据)和估计稀疏码矩阵利用,例如,K-奇异值分解(K-SVD)算法确定估计字典矩阵。处理设备122可以根据等式(4)基于估计字典矩阵和估计稀疏码矩阵确定估计音频数据。处理设备122可以将估计音频数据与音频数据(例如,第一音频数据)进行比较。如果在当前迭代中生成的估计音频数据与音频数据(例如,第一音频数据)之间的差异超过阈值,则处理设备122可以使用在当前迭代中生成的估计字典矩阵来更新初始字典矩阵。处理设备122可以基于更新的初始字典矩阵的执行下一次迭代,直到在当前迭代中生成的估计音频数据与音频数据(例如,第一音频数据)之间的差小于阈值。若当前迭代中生成的估计音频数据与音频数据之间的差小于阈值,处理设备122可以将估计字典矩阵和在当前迭代中生成的估计稀疏码矩阵指定为音频数据(例如,第一音频数据)的字典矩阵和/或稀疏码矩阵。
在750中,处理设备122(例如,预处理模块220)可以使用第二变换关系基于骨导音频数据(例如,图4中所述的第一音频数据或归一化的第一音频数据)的稀疏码矩阵确定重构的骨导音频数据(例如,图4中所述的重构的第一音频数据)的稀疏码矩阵。例如,处理设备122可以将第二变换关系(例如,矩阵)与骨导音频数据的稀疏码矩阵相乘,以获得重构的第一音频数据的稀疏码矩阵。可以如操作740中所述确定第一音频数据的稀疏码矩阵。
在760中,处理设备122(例如,预处理模块220)可以基于重构的骨音频数据的字典矩阵和稀疏码矩阵确定重构的骨导音频数据(例如,图4中所述的重构的第一音频数据)。处理设备122可以根据等式(4)基于操作740和750所确定的字典矩阵和稀疏码矩阵确定重构的骨导音频数据。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。例如,操作720和730可以集成到单个操作中。
图8是根据本申请的一些实施例所示的用于生成音频数据的示例性过程的流程图。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程800可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图8中示出并在下面描述的过程800的操作的顺序是非限制性的。在一些实施例中,可以执行过程800的一个或以上操作以实现如结合图4所描述的操作440的至少一部分。
在810中,处理设备122(例如,音频数据生成模块230或频率确定单元310)可以至少部分地基于骨导音频数据和/或气导音频数据确定一个或以上频率阈值。骨导音频数据(例如,第一音频数据或预处理后的第一音频数据)和气导音频数据(例如,第二音频数据或预处理后的第二音频数据)可以分别由骨传导传感器和气传导传感器在用户说话时同时采集。关于骨导音频数据和气导音频数据的更多描述可以在本申请的其他地方找到(例如,图4及其描述)。
如本文中所述,频率阈值也可以被称为频率点。在一些实施例中,频率阈值可以是骨导音频数据和/或气导音频数据中频率成分的频率值。在一些实施例中,频率阈值可以与骨导音频数据和/或气导音频数据中频率成分的频率值不同。在一些实施例中,处理设备122可以基于与骨导音频数据相关联的频率响应曲线确定频率阈值。与骨导音频数据相关联的频率响应曲线可包括随频率变化而变化的频率响应值。在一些实施例中,处理设备122可以基于与骨导音频数据相关联的频率响应曲线的频率响应值确定频率阈值。例如,处理设备122可以将在一定频率范围(例如,如图10所示的频率响应曲线m的0-2000Hz)内的最大频率(例如,如图10所示频率响应曲线m中2000Hz)确定为频率阈值,在该频率范围内的频率对应的频率响应值小于一定阈值(例如,如图10所示的频率响应曲线m中的为80dB左右)。又例如,处理设备122可以将一定频率范围(例如,如图10所示的频率响应曲线m中的4000Hz-20kHz),)中最小频率(例如,如图10所示的频率响应曲线m的4000Hz)确定为频率阈值,该频率范围内的频率对应的频率响应值大于一定阈值(例如,如图10所示的频率响应曲线m的大约90dB)。作为又一示例,处理设备122可以将频率范围内的最小频率和最大频率确定为频率阈值,该频率范围内的频率对应的频率响应值在一定范围内。再例如,如图10所示,处理设备122可以基于骨导音频数据的频率响应曲线“m”确定一个或以上频率阈值。处理设备122可以确定小于某一阈值(例如,70dB)的频率响应值对应的频率范围(0-2000Hz)。处理设备122可以将该频率范围中的最大频率确定为频率阈值。在一些实施例中,处理设备122可以根据频率响应曲线的变化特性确定一个或以上频率阈值。例如,处理设备122可以将频率响应曲线具有稳定变化的频率范围中的最大频率和/或最小频率确定为频率阈值。又例如,处理设备122可以将频率响应曲线变化剧烈的频率范围内的最大频率和/或最小频率确定为频率阈值。再例如,相对于大于800Hz且小于4000Hz的频率范围,频率范围小于800Hz的频率响应曲线m基本上稳定地变化。处理设备122可以将800Hz和4000Hz确定为频率阈值。在一些实施例中,处理设备122可以使用本申请中其他地方描述的一个或以上重构技术(例如,图4及其描述)来重构骨导音频数据,以获得重构的骨导音频数据。处理设备122可以确定与重构的骨导音频数据相关联的频率响应曲线。处理设备122可以基于重构的骨导音频数据相关联的频率响应曲线确定频率阈值,与上述所述的基于骨导音频数据的频率响应曲线确定频率阈值的方法相同或类似。
在一些实施例中,处理设备122可以基于与气导音频数据的至少一部分相关联的噪声水平确定一个或以上频率阈值。噪声水平越高,频率阈值(例如,最小频率阈值)可以越高。噪声水平越低,频率阈值(例如,最小频率阈值)可以越低。在一些实施例中,与气导音频数据相关联的噪声水平可以由气导音频数据中包括的噪声的量或能量来表示。气导音频数据中包含的噪声的量或能量越大,噪声水平越大。在一些实施例中,噪声水平可以由气导音频数据的信噪比表示。信噪比越大,噪声水平越低。与气导音频数据相关的信噪比越大,阈值越小。例如,如果信噪比是0dB,则频率阈值可以是2000Hz。如果信噪比是20dB,则频率阈值可以是4000Hz。例如,频率阈值可以基于等式(5)确定如下:
Figure BDA0002200695650000331
其中,Fpoint可以表示频率阈值,F1、F2、F3可以是0-20KHz范围内的值,其中满足F1>F2>F3。A1和A2为常数值,例如,A1可以是0,A2可以等于20。
进一步的,频率阈值可以由等式(6)表示:
Figure BDA0002200695650000341
在一些实施例中,处理设备122可以根据等式(6)确定气导音频数据的信噪比如下:
Figure BDA0002200695650000342
其中n指的是气导音频数据中的第n帧语音帧,
Figure BDA0002200695650000343
指的是包含在气导音频数据中的纯音频数据的能量,
Figure BDA0002200695650000344
指的是包含在气导音频数据中的噪声数据的能量。在一些实施例中,处理设备122可以使用噪声估计算法确定气导音频数据中的噪声数据,例如最小值统计(MS)算法、最小值控制递归平均(MCRA)算法等。处理设备122可以基于气导音频数据中的噪声数据确定气导音频数据中的纯音频数据。然后,处理设备122可以确定气导音频数据中的纯音频数据的能量和气导音频数据中的噪声数据的能量。在一些实施例中,处理设备122可以使用骨传导传感器和气传导传感器确定气导音频数据中的噪声数据。例如,处理设备122可以确定由气传导传感器采集的参考音频数据,在气导传感器采集参考音频数据的同时骨导传感器未采集到任何信号,且气导传感器采集参考音频数据的时间接近气导传感器采集气导音频数据的时间。如本文所使用的,某一时间接近另一时间可以指两时间之间的差距小于一定的阈值(例如,10ms、100ms、1秒、2秒、3秒、4秒等)。参考音频数据可以等效为气导音频数据中的噪声数据。然后,处理设备122可以基于气导音频数据中的噪声数据(即参考音频数据)确定气导音频数据中的纯音频数据。并且处理设备122可以根据等式(7)确定与气导音频数据相关联的信噪比。
在一些实施例中,处理设备122可以提取气导音频数据中噪声数据的能量,并基于噪声数据的能量和气导音频数据的总能量确定纯音频数据的能量。例如,处理设备122可以从气导音频数据的总能量中减去气导音频数据中的噪声数据的能量,以获得气导音频数据中的纯音频数据的能量。处理设备122可以根据等式(7)基于纯音频数据的能量和噪声数据的能量确定信噪比。
在820中,处理设备122(例如,音频数据生成模块230或权重确定单元320)可以根据一个或以上频率阈值将骨导音频数据和气导音频数据分别分成多个片段。在一些实施例中,骨导音频数据和气导音频数据为时域数据,处理设备122可以对骨导音频数据和气导音频数据执行域变换操作(例如,FT操作),以将骨导音频数据和气导音频数据转换为频域。在一些实施例中,骨导音频数据和气导音频数据可以为频域数据。频域中的骨导音频数据和气导音频数据分别可以包括频谱。频域中的骨导音频数据也可以被称为骨导频谱。频域中的气导音频数据也可以被称为气导频谱。处理设备122可以将骨导频谱和气导频谱分别分成多个片段。骨导音频数据的每个片段可以对应于气导音频数据的一个片段。如本文所使用的,气导音频数据的片段对应骨导音频数据的片段可以指的是骨导音频数据和气导音频数据的两个片段由一个或两个相同的频率阈值定义。例如,如果骨导音频数据的特定片段由频率点2000Hz和4000Hz定义,换句话说,骨导音频数据的特定片段包括在2000Hz到4000Hz范围内的频率成分,骨导音频数据的特定片段对应的气导音频数据的片段也可以由频率阈值2000Hz和4000Hz定义。换句话说,气导音频数据的片段中与骨导音频数据中由2000Hz到4000Hz定义的片段对应的片段包括在2000Hz到4000Hz范围内的频率成分。
在一些实施例中,频率阈值的计数或数量可以是一个,处理设备122可以将骨导频率谱和气导频率谱分别分成两个片段。例如,骨导频谱的两个片段的其中一个片段可以包括骨导频谱中频率成分小于频率阈值的一部分,骨导频率频谱的两个片段的另一个片段可包括骨导频谱中频率成分高于频率阈值的剩余的部分。
在830中,处理设备122(例如,音频数据生成模块230或权重确定单元320)可以分别确定骨导音频数据和气导音频数据的多个片段中的每个片段的权重。在一些实施例中,骨导音频数据的特定片段的权重和气导音频数据的相应特定片段的权重可以满足一个标准,使得骨导音频数据的特定片段的权重与气导音频数据的相应特定片段的权重之和等于1。例如,如果处理设备122根据单一频率阈值将骨导音频数据和气导音频数据分成两个片段。骨导音频数据中具有低于单一频率阈值的频率成分的片段(也被称为骨导音频数据的低频部分)的权重可以等于1、或0.9、或0.8等。气导音频数据中具有低于单一频率阈值的频率成分的片段(也称为气导音频数据的低频部分)的权重可以相应的等于0、或0.1、或0.2等,分别对应于骨导音频数据的片段的权重1、或0.9、或0.8等。骨导音频数据中具有高于单一频率阈值的频率成分的另一个片段(也被称为骨导音频数据的高频部分)的权重可以等于0、或0.1、或0.2等。气导音频数据中具有高于单一频率阈值的频率成分的另一个片段(也被称为气导音频数据的高频部分)的权重可以相应的等于1、或0.9、或0.8等,分别对应于骨导音频数据的另一个片段的权重数据0、或0.1、或0.2等。
在一些实施例中,处理设备122可以根据气导音频数据的信噪比确定骨导音频数据或气导音频数据的不同片段的权重。例如,气导音频数据的信噪比越低,骨导音频数据的特定片段的权重可以越大,并且气导音频数据的相应特定片段的权重可以越低。
在840中,处理设备122(例如,音频数据生成模块230或组合单元330)可以针对骨导音频数据和气导音频数据中的多个片段中的每个片段拼接骨导音频数据和气导音频数据,以生成拼接的音频数据。拼接的音频数据可以表示用户的语音,其具有比骨导音频数据和/或气导音频数据更高的保真度。骨导音频数据和气导音频数据的拼接可以指根据一个或以上频率阈值,在频域中选择气导音频数据的频率成分的一个或多个部分以及选择骨导音频数据的频率成分的一个或多个部分,并且基于骨导音频数据的所选部分和气导音频数据的所选部分生成音频数据。如本文所述,频率阈值也可称为频率拼接点。在一些实施例中,骨导音频数据和/或气导音频数据的选定部分可包括低于频率阈值的频率成分。在一些实施例中,骨导音频数据和/或气导音频数据的选定部分可包括低于频率阈值并且大于另一频率阈值的频率成分。在一些实施例中,骨导音频数据和/或气导音频数据的选定部分可包括大于频率阈值的频率成分。
在一些实施例中,处理设备122可以根据等式(8)确定拼接的音频数据如下:
Figure BDA0002200695650000361
其中,
Figure BDA0002200695650000362
指骨导音频数据,
Figure BDA0002200695650000363
指气导音频数据,
Figure BDA0002200695650000364
包括(am1,am2,...,amN)是指骨导音频数据的多个片段的权重,
Figure BDA0002200695650000365
包括(bm1,bm2,...,bmN)指的是气导音频数据的多个片段的权重,(xm1,xm2,...,xmN)指骨导音频数据的多个片段,每个片段包括由频率阈值定义的频率范围内的频率成分,(ym1,ym2,...,ymN)是指气导音频数据的多个片段,每个片段包括由频率阈值定义的频率范围内的频率成分。例如,xm1以及ym1可以分别指骨导音频数据和气导音频数据中低于800Hz的频率成分。又例如,xm2以及ym2可以分别指骨导音频数据和气导音频数据中在800Hz和4000Hz的频率范围内的频率成分。N可以是常数,例如1、2、3等。amn(n=1,2,…N)可以是0到1范围内的常数。bmn(n=1,2,…N)可以是0到1范围内的常数。amn(n=1,2,…N)以及bmn(n=1,2,…N)之和等于1。在一些实施例中,N可以等于2。处理设备122可以根据单一频率阈值分别将每个骨导音频数据和气导音频数据分为两个片段。例如,处理设备122可以根据单一频率阈值确定骨导音频数据(或者气导音频数据)的低频部分和的高频部分。骨导音频数据(或者气导音频数据)的低频部分可包括骨导音频数据(或者气导音频数据)中低于单一频率阈值的频率成分,骨导音频数据(或者气导音频数据)的高频部分可包括骨导音频数据(或者气导音频数据)中高于单一频率阈值的频率成分。在一些实施例中,处理设备122可以基于一个或以上滤波器确定骨导音频数据(或者气导音频数据)的低频部分和高频部分。一个或以上滤波器可包括低通滤波器、高通滤波器、带通滤波器等,或其任何组合。
在一些实施例中,处理设备122可以至少部分基于单一频率阈值分别确定骨导音频数据的低频部分和骨导音频数据的高频部分的第一权重和第二权重。处理设备122可以分别至少部分地基于单一频率阈值确定气导音频数据的低频部分和气导音频数据的高频部分的第三权重和第四权重。在一些实施例中,可以基于气导音频数据的信噪比确定第一权重、第二权重、第三权重和第四权重。例如,如果气导音频数据的信噪比大于阈值,处理设备122可以确定第一权重小于第三权重,和/或第二权重大于第四权重。又例如,处理设备122可以确定多个信噪比范围,每个信噪比范围对应固定的第一权重、第二权重、第三权重和第四权重。第一权重和第二权重可以相同或不同,并且第三权重和第四权重可以相同或不同。第一权重和第三权重的和为1,第二权重和第四权重的和为1。第一权重、第二权重、第三权重第和/或四权重可以是0到1范围内的常数值,例如,1、0.9、0.8、0.7、0.3、0.4、0.5、0.6、02、0.1、0等。在一些实施例中,处理设备122可以分别使用第一权重、第二权重、第三权重和第四权重通过对骨导音频数据的低频部分和高频部分、气导音频数据的低频部分和高频部分进行加权以确定拼接的音频数据。例如,处理设备122可以使用第一权重和第三权重对骨导音频数据的低频部分和气导音频数据的低频部分进行加权求和确定拼接后的音频数据的低频部分。处理设备122可以通使用第二权重和第四权重对骨导音频数据的高频部分和气导音频数据的高频部分进行加权求和以确定拼接后的音频数据的高频部分。处理设备122可以组合拼接后的音频数据的低频部分和拼接后的音频数据的高频部分以获取拼接后的音频数据。
在一些实施例中,骨导音频数据的低频部分的第一权重可以等于1,骨导音频数据的高频部分的第二权重可以等于0。气导音频数据的低频部分的第三权重可以等于0,气导音频数据的高频部分的第四权重可以等于1。可以通过拼接骨导音频数据的低频部分和气导音频数据的高频部分来生成拼接后的音频数据。在一些实施例中,骨导音频数据和气导音频数据经拼接后产生的音频数据可以根据单一频率阈值的不同而不同。例如,如图16至20所示,图16到20是根据本申请的一些实施例所示的由特定骨导音频数据和特定气导音频数据分别在2000Hz、3000Hz和4000Hz的频率点进行拼接生成的拼接音频数据的时频图。图16、19和20对应的拼接的音频数据中的噪声量彼此不同。频率拼接点越大,拼接的音频数据中的噪声量就越少。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。
图9是根据本申请的一些实施例所示的用于生成音频数据的示例性过程的流程图。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程900可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图9中示出并在下面描述的过程900的操作的顺序是非限制性的。在一些实施例中,可以执行过程900的一个或以上操作以实现如结合图4所描述的操作440的至少一部分。
在910中,处理设备122(例如,音频数据生成模块230或权重确定单元320)可以至少部分基于骨导音频数据或气导音频数据中的至少一个,确定对应于骨导音频数据的权重。在一些实施例中,当用户说话时,骨导音频数据和气导音频数据可以分别由骨传导传感器和气传导传感器同时获得。气导音频数据和骨导音频数据可以代表用户的语音。关于骨导音频数据和气导音频数据的更多描述可以在图4及其描述中找到。
在一些实施例中,处理设备122可以基于气导音频数据的信噪比确定骨导音频数据的权重。关于确定气导音频数据的信噪比的更多描述可以在本申请的其他地方找到(例如,图8及其描述)。气导音频数据的信噪比越大,骨导音频数据的权重越低。例如,如果气导音频数据的信噪比大于预定的阈值,骨导音频数据的权重可以设置为值A,如果气导音频数据的信噪比小于该预定的阈值,骨导音频数据的权重可以设为值B,A<B。又例如,处理设备122可以根据等式(9)确定骨导音频数据的权重如下:
Figure BDA0002200695650000381
其中a1>a2>a3。A1和/或A2可以是音频信号生成系统100的默认设置。进一步的,处理设备122可以确定至少两个信噪比范围,每个信噪比范围对应于骨导音频数据的权重的值,例如等式(10):
Figure BDA0002200695650000382
其中,Wbone指的是与骨导音频数据相对应的权重。
在920中,处理设备122(例如,音频数据生成模块230或权重确定单元320)可以至少部分基于骨导音频数据或气导音频数据中的至少一个,确定对应于气导音频数据的权重。用于确定气导音频数据的权重的方法可以与用于确定骨导音频数据的权重的方法类似或相同,如操作910中所述。例如,处理设备122可以基于气导音频数据的信噪比确定气导音频数据的权重。关于确定气导音频数据的信噪比的更多描述可以在本申请的其他地方找到(例如,图8及其描述)。气导音频数据的信噪比越大,气导音频数据的权重越高。又例如,如果气导音频数据的信噪比大于预定的阈值,则气导音频数据的权重可以设置为值X,如果气导音频数据的信噪比小于该预定阈值,则气导音频数据的权重可以设置为值Y,并且X>Y。骨导音频数据的权重和气导音频数据的权重需要满足一定标准,使得骨导音频数据的权重和气导音频数据的权重之和等于1。处理设备122可以确定基于骨导音频数据的权重确定气导音频数据的权重。例如,处理设备122可以基于1和骨导音频数据的权重之间的差值确定气导音频数据基的权重。
在930,处理设备122(例如,音频数据生成模块230或组合单元330)可以利用骨导音频数据的权重和气导音频数据的权重对骨导音频数据和气导音频数据进行加权求和确定目标音频数据。目标音频数据可以表示用户的语音,其与骨导音频数据和气导音频数据表示的语音相同。在一些实施例中,处理设备122可以根据等式(11)确定目标音频数据如下:
Figure BDA0002200695650000391
其中,Sair指的是气导音频数据,Sbone指的是骨导音频数据,a1是指气导音频数据的权重,b1指的是骨导音频数据的权重,Sout指的是目标音频数据。an以及bn之和等于1的标准。例如,目标音频数据可以根据等式(12)确定如下:
Figure BDA0002200695650000392
在一些实施例中,处理设备122可以经由网络150将目标音频数据发送到客户终端(例如,终端130)、存储设备140和/或任何其他存储设备(未在音频信号生成系统100中示出)。
实例
以下提供的这些实施例仅仅是为了说明的目的,而不是为了限制本申请的范围。
示例1骨导音频数据、重构骨导音频数据,以及相应的气导音频数据的频率响应曲线。
如图10所示,曲线“m”表示骨导音频数据的频率响应曲线,曲线“n”表示对应于骨导音频数据的气导音频数据的频率响应曲线。骨导音频数据和气导音频数据代表用户的相同语音。曲线“m1”表示通过根据过程500使用训练后的机器学习模型重构骨导音频数据而生成的重构的骨导音频数据的频率响应曲线。如图10所示,频率响应曲线“m1”比频率响应曲线“m”更接近频率响应曲线“n”。换句话说,重构的骨导音频数据与骨导音频数据相比更接近于气导音频数据。此外,重构的骨导音频数据的频率响应曲线“m1”的低于频率点(例如,2000Hz)部分与气导音频数据的频率更相似或接近。
示例2通过位于使用者身体的不同部位的骨传导传感器采集的骨导音频数据的频率响应曲线。
如图11所示,曲线“p”表示由位于使用者身体颈部的第一骨传导传感器采集的骨导音频数据的频率响应曲线。曲线“b”表示由位于使用者身体的乳突处的第二骨传导传感器采集的骨导音频数据的频率响应曲线。曲线“o”表示由位于使用者身体的耳道(例如,外耳道)的第三骨传导传感器采集的骨传导音频数据的频率响应曲线。在一些实施例中,第二骨传导传感器和第三骨传导传感器与第一骨传导传感器配置相同。由第一骨传导传感器、第二骨传导传感器以及第三骨传导传感器采集的骨导音频数据表示同一用户的相同语音,由第一骨传导传感器、第二骨传导传感器以及第三骨传导传感器同时采集。在一些实施例中,第一骨传导传感器、第二骨传导传感器和第三骨传导传感器可以采用不同的配置。不同配置的骨传导传感器在同一部位采集的骨导音频数据的频响曲线可能不同。
如图11所示,频率响应曲线“p”、频率响应曲线“b”以及频率响应曲线“o”彼此不同。换句话说,由第一骨传导传感器、第二骨传导传感器以及第三骨传导传感器采集的骨传导音频数据与第一骨传导传感器、第二骨传导传感器以及和第三骨传导传感器所在的使用者身体的部位的不同而不同。例如,位于使用者身体颈部的第一骨传导传感器采集的骨导音频数据中频率成分小于800Hz的响应值大于由位于使用者身体的乳突处的第二骨传导传感器采集的骨导音频数据中频率成分小于800Hz的响应值。频率响应曲线可以反映骨传导传感器将声能转换为电信号的能力。根据频率响应曲线“p”“b”和“o”,骨传导传感器在身体的不同部位,在0到约5000Hz的频率范围的响应值大于超过约5000HZ的频率范围的响应值。频率响应曲线“p”“b”和“o”在0到约2000Hz的频率范围的频率响应曲线变化较为平稳,超过2000H频率响应曲线变化剧烈。传感器位于使用者身体的不同区域对低频信号或低频成分(例如,0-2000Hz、或0-5000HZ)的拾取能力较强,即骨传导传感器采集的信号能量主要集中在低频段。
因此,如图11所示,用于采集和/或播放音频信号的骨传导装置可包括用于采集骨导音频信号的骨传导传感器,该骨导传感器可以通过对骨传导装置结构的设计使之位于使用者身体的某一个或多个部分或位置。在进行骨传导装置结构的设计时,可以基于频率响应曲线、信号强度、用户的舒适度、美观度、便捷性等一个或多个特征来确定骨传导传感器所处使用者身体的区域。例如,骨传导设备可以包括用于采集骨导音频信号的骨传导传感器。当使用者佩戴骨传导装置时,骨传导传感器可以处于使用者的耳屏、耳道和/或与使用者的耳屏、耳道接触等位置,使骨传导传感器采集的音频信号的信号强度相对较高,同时佩戴较为便捷美观。
示例3:骨传导传感器在使用者身体的同一区域施加不同压力而采集的骨传导音频数据的示例性频率响应曲线。
在图12中,曲线“L1”表示骨传导传感器在用户耳屏处施加的压力F1为0N而采集的骨传导音频数据的频率响应曲线。如本文所使用的,骨传导传感器在用户身体部位上施加的压力也可以被称为骨传导传感器或骨传导设备的夹紧力。曲线“L2”表示骨传导传感器在用户耳屏处施加的压力F2为0.2N而采集的骨传导音频数据的频率响应曲线。曲线“L3”表示骨传导传感器在用户耳屏处施加的压力F3为0.4N而采集的骨传导音频数据的频率响应曲线。曲线“L4”表示骨传导传感器在用户耳屏处施加的F4为0.8N而采集的骨传导音频数据的频率响应曲线。在图12中,频率响应曲线“L1”-“L4”彼此不同。换句话说,通过骨传导传感器向使用者身体的相同区域施加不同压力而采集的骨传导音频数据是不同的。
当骨传导传感器向使用者身体的某个部位上施加的压力不同时,骨传导传感器采集的骨传导音频数据可以是不同的。例如,骨传导传感器采集的骨传导音频数据的信号强度可以随着压力的不同而不同。当压力从0N增大到0.8N的时候,信号强度先逐渐增大,后增大的趋势减缓,慢慢达到饱和。然而,骨传导传感器在使用者身体部位上施加的压力越大,用户佩戴时就会觉得越不舒服。因此,根据图11和12所示,用于采集和/或播放音频信号的骨传导装置可以包括用于采集骨导音频信号的骨传导传感器,该骨导传感器可以通过对骨传导装置结构设计使之位于使用者身体的某一个或多个部位或位置并且当用户佩戴时,骨导装置对用户该部位的夹紧力可以处于一定范围内。在对骨传导装置结构设计,可以基于频率响应曲线、信号强度、用户的舒适度等的一个或多个特征来确定骨传导传感器所处使用者身体的区域和/或施加于使用者身体该部位的夹紧力。例如,骨传导装置可以包括用于采集骨导音频信号的骨传导传感器,当使用者佩戴骨传导装置时,使得骨传导传感器与用户的耳屏接触,并对耳屏处施加的夹紧力在0至0.8N的范围内,例如0.2N,或0.4N,或0.6N,或0.8N等,这样可以使得采集到的骨导信号的信号强度较大,同时,合适的夹紧力会使用户佩戴时感觉较为舒适。
示例4:拼接音频数据的示例性时频图。
图13是根据本申请的一些实施例通过拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图。骨导音频数据和气导音频数据代表同一用户的相同语音。该气导音频数据包括噪声。图14是根据本申请的一些实施例通过拼接骨导音频数据和预处理后的气导音频数据生成的拼接音频数据的时频图。通过使用维纳滤波器对气导音频数据进行降噪来生成预处理后的气导音频数据。图15是根据本申请的一些实施例的通过骨导音频数据和另一个预处理后的气导音频数据生成的拼接音频数据的时频图。通过使用谱减法技术对气导音频数据进行降噪来生成另一个预处理后的音频数据。图13至15中所示的拼接音频数据的时频图是根据过程800基于相同的2000Hz频率拼接点生成。如图13至15所示,图14(例如,区域M)和图15(例如,区域N)所示的拼接音频数据中高于2000Hz频率成分比图13(例如,区域O)所示的拼接音频数据中高于2000Hz的频率成分的噪声更少,可表明基于降噪的气导音频数据生成的拼接的音频数据比基于未被降噪的气导音频数据生成的拼接的音频数据具有更高的保真度。图14所示的拼接音频数据中高于2000Hz的频率成分与图15所示的拼接音频数据中高于2000Hz的频率成分不同,这是由于对气导音频数据执行了不同降噪技术。如图14和15所示,图14所示的拼接音频数据中高于2000Hz的频率成分(例如,区域M)比图15所示的拼接音频数据中高于2000Hz的频率成分(例如,区域N)具有更少的噪声。
示例5:根据不同频率阈值生成的拼接音频数据的示例性时频图。
图16是骨导音频数据的时频图。图17是对应于骨导音频数据的气导音频数据的时频图。骨导音频数据(例如,图4中所述的第一音频数据)和气导音频数据(例如,图4中所述的第二音频数据)可以由骨导传感器和气导传感器在用户说话时同时采集。图18到20是根据本申请的一些实施例分别根据2000Hz、3000Hz和4000Hz的频率阈值(频率拼接点)拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图。比较图18至20所示的拼接音频数据的时频图与图17所示的气导音频数据的时频图,图18、19和20中的拼接音频数据中的噪声小于图17所示的气导音频数据。频率阈值越大,拼接的音频数据中的噪声量就越少。将图18至20所示的拼接音频数据的时频图与图16所示的骨导音频数据的时频率图进行比较,相对于图16中小于频率2000Hz、3000Hz和4000Hz的频率成分,图18至20中分别小于频率2000Hz、3000Hz和4000Hz的频率成分增加。
应该注意的是,以上对各种实施例的描述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims (25)

1.一种音频信号生成方法,包括:
获取由骨传导传感器采集的第一音频数据;
获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成;以及
基于所述第一音频数据和所述第二音频数据生成第三音频数据,其中,所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
2.根据权利要求1所述的方法,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,包括:
对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据;以及
基于所述预处理后的第一音频数据和所述第二音频数据,生成所述第三音频数据。
3.根据权利要求2所述的方法,其特征在于,所述第一预处理操作包括归一化操作。
4.根据权利要求2或3所述的方法,其特征在于,对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据,包括:
获取训练后的机器学习模型;
基于所述第一音频数据,使用所述训练后的机器学习模型确定所述预处理后的第一音频数据,其中,所述预处理后的第一音频数据中高于第二频率点的频率成分相对于所述第一音频数据中高于所述第二频率点的频率成分增加。
5.根据权利要求4所述的方法,其特征在于,所述训练后的机器学习模型由以下过程确定,所述过程包括:
获取多组训练数据,所述多组训练数据中的每组训练数据包括代表语音样本的骨导音频数据和气导音频数据;以及
使用所述多组训练数据训练初级机器学习模型,在所述初级机器学习模型的训练过程中,所述多组训练数据中的每组训练数据中的所述骨导音频数据作为所述初级机器学习模型的输入,以及与所述骨导音频数据对应的所述气导音频数据为所述初级机器学习模型的期望输出。
6.根据权利要求4或5所述的方法,其特征在于,用于采集所述至少两个训练数据组中每组训练数据的所述骨导音频数据的特定骨传导传感器所在的身体部位与用于采集所述第一音频数据的所述骨传导传感器所在的所述用户的身体部位相同。
7.根据权利要求4至6任一项所述的方法,其特征在于,所述初级机器学习模型基于递归神经网络模型或长短期记忆网络构建。
8.根据权利要求2或3所述的方法,其特征在于,对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据,包括;
获取滤波器,所述滤波器用于提供特定气导音频数据与所述特定气导音频数据对应的特定骨导音频数据之间的关系;以及
使用所述滤波器处理所述第一音频数据以确定所述预处理后的第一音频数据。
9.根据权利要求1至8任一项所述的方法,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,包括:
对所述第二音频数据执行第二预处理操作以获取预处理后的第二音频数据;以及
基于所述第一音频数据和所述预处理后的第二音频数据,生成所述第三音频数据。
10.根据权利要求9所述的方法,其特征在于,所述第二预处理操作包括降噪操作。
11.根据权利要求1至10任一项所述的方法,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,包括:
至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个确定一个或以上频率阈值;以及
基于所述一个或以上频率阈值、所述第一音频数据以及所述第二音频数据生成所述第三音频数据。
12.根据权利要求11所述的方法,其特征在于,至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述一个或以上频率阈值,包括:
确定与所述第二音频数据相关的噪声水平;以及
基于与所述第二音频数据相关的噪声水平,确定所述一个或以上频率阈值中的至少一个。
13.根据权利要求12所述的方法,其特征在于,与所述第二音频数据相关联的所述噪声水平由所述第二音频数据的信噪比表示,并且所述第二音频数据的所述信噪比由以下操作确定,包括:
使用所述骨传导传感器和所述气传导传感器确定所述第二音频数据中的噪声的能量;
基于所述第二音频数据中的所述噪声的能量,确定所述第二音频数据中的纯音频数据的能量;以及
基于所述第二音频数据中所述噪声的能量和所述第二音频数据中的所述纯音频数据的能量,确定所述信噪比。
14.根据权利要求12或13所述的方法,其特征在于,与所述第二音频数据相关联的所述噪声水平越大,所述一个或以上频率阈值中的至少一个频率阈值越大。
15.根据权利要求11所述的方法,其特征在于,至少部分基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述一个或以上频率阈值,包括:
基于与所述第一音频数据相关联的频率响应曲线确定所述一个或以上频率阈值中的至少一个。
16.根据权利要求11所述的方法,其特征在于,基于所述频率点、所述第一音频数据以及所述第二音频数据生成所述第三音频数据,包括:
根据所述一个或以上频率阈值在频率域中拼接所述第一音频数据和所述第二音频数据以生成所述第三音频数据。
17.根据权利要求16所述的方法,其特征在于,根据所述一个或以上频率阈值在频率域中拼接所述第一音频数据和所述第二音频数据以生成所述第三音频数据,包括:
确定所述第一音频数据的低频部分,所述低频部分包括低于所述一个或以上频率阈值中的某个频率阈值的频率成分;
确定所述第二音频数据的高频部分,所述高频部分包括高于所述一个或以上频率阈值中的所述某个频率阈值的频率成分;以及
拼接所述第一音频数据的所述低频部分和所述第二音频数据的所述高频部分以生成所述第三音频数据。
18.根据权利要求1至10任一项所述的方法,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,包括:
确定多个频率范围;
分别确定位于所述多个频率范围的每个频率范围内的所述第一音频数据的一部分和所述第二音频数据的一部分的第一权重和第二权重;以及
通过使用所述第一权重和所述第二权重,对位于所述多个频率范围中的每个频率范围内的所述第一音频数据的所述部分和所述第二音频数据的所述部分进行加权以确定所述第三音频数据。
19.根据权利要求1至10任一项所述的方法,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,包括:
至少部分地基于所述频率点,分别地确定所述第一音频数据的第一部分和所述第一音频数据的第二部分的第一权重和第二权重,所述第一音频数据的所述第一部分包括低于所述频率点的频率成分,以及所述第一音频数据的所述第二部分包括高于所述频率点的频率成分;
至少部分地基于所述频率点,分别地确定所述第二音频数据的第三部分和所述第二音频数据的第四部分的第三权重和第四权重,所述第二音频数据的所述第三部分包括低于所述频率点的频率成分以及所述第二音频数据的所述第四部分包括高于所述频率点的频率成分;以及
通过使用所述第一权重、所述第二权重、所述第三权重、所述第四权重对所述第一音频数据的所述第一部分、所述第一音频数据的所述第二部分、所述第二音频数据的所述第三部分和所述第二音频数据的所述第四部分进行加权以确定所述第三音频数据。
20.根据权利要求1至10任一项所述的方法,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,包括:
至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述第一音频数据的第一权重;
至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述第二音频数据的第二权重;以及
通过所述第一权重和所述第二权重对所述第一音频数据和所述第二音频数据的加权以确定所述第三音频数据。
21.根据权利要求1至20任一项所述的方法,其特征在于,包括:
对所述第三音频数据执行后处理操作以获取目标音频数据,所述目标音频数据代表所述用户的所述语音,所述目标音频数据比所述第一音频数据和所述第二音频数据具有更高的保真度。
22.根据权利要求21所述的方法,其特征在于,所述后处理操作包括降噪操作。
23.一种音频信号生成系统,包括:
至少一个处理器;以及
可执行指令,所述可执行指令可以由所述至少一个处理器执行,使所述系统执行如权利要求1-22任一所述的音频信号生成方法。
24.一种音频信号生成的系统,包括:
获取模块,用于获取由骨传导传感器采集的第一音频数据和由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成;以及
音频信号生成模块,用于基于所述第一音频数据和所述第二音频数据生成第三音频数据,其中,所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
25.一种非暂时性计算机可读介质,其特征在于,所述介质存储计算机指令,所述计算机指令在执行时执行如权利要求1-22任一所述的音频信号生成方法。
CN201910864002.8A 2019-09-12 2019-09-12 用于音频信号生成的系统和方法 Active CN112581970B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910864002.8A CN112581970B (zh) 2019-09-12 2019-09-12 用于音频信号生成的系统和方法
CN202210237943.0A CN114822565A (zh) 2019-09-12 2019-09-12 音频信号生成方法及系统、非暂时性计算机可读介质
CN202210239104.2A CN114822566A (zh) 2019-09-12 2019-09-12 音频信号生成方法及系统、非暂时性计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910864002.8A CN112581970B (zh) 2019-09-12 2019-09-12 用于音频信号生成的系统和方法

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN202210237943.0A Division CN114822565A (zh) 2019-09-12 2019-09-12 音频信号生成方法及系统、非暂时性计算机可读介质
CN202210239104.2A Division CN114822566A (zh) 2019-09-12 2019-09-12 音频信号生成方法及系统、非暂时性计算机可读介质

Publications (2)

Publication Number Publication Date
CN112581970A true CN112581970A (zh) 2021-03-30
CN112581970B CN112581970B (zh) 2024-10-22

Family

ID=75109581

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202210239104.2A Pending CN114822566A (zh) 2019-09-12 2019-09-12 音频信号生成方法及系统、非暂时性计算机可读介质
CN201910864002.8A Active CN112581970B (zh) 2019-09-12 2019-09-12 用于音频信号生成的系统和方法
CN202210237943.0A Pending CN114822565A (zh) 2019-09-12 2019-09-12 音频信号生成方法及系统、非暂时性计算机可读介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210239104.2A Pending CN114822566A (zh) 2019-09-12 2019-09-12 音频信号生成方法及系统、非暂时性计算机可读介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202210237943.0A Pending CN114822565A (zh) 2019-09-12 2019-09-12 音频信号生成方法及系统、非暂时性计算机可读介质

Country Status (1)

Country Link
CN (3) CN114822566A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023029615A1 (zh) * 2021-08-30 2023-03-09 华为技术有限公司 语音唤醒的方法、装置、设备、存储介质及程序产品

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095691B (zh) * 2023-10-13 2023-12-19 荣耀终端有限公司 语音数据集的构建方法、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0630490A (ja) * 1992-05-12 1994-02-04 Katsuo Motoi イヤーセット型送受話器
JPH1023122A (ja) * 1996-06-28 1998-01-23 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2014096732A (ja) * 2012-11-09 2014-05-22 Oki Electric Ind Co Ltd 収音装置及び電話機
EP2811485A1 (en) * 2013-06-07 2014-12-10 Fujitsu Limited Sound correcting apparatus, sound correcting program, and sound correcting method
CN109240639A (zh) * 2018-08-30 2019-01-18 Oppo广东移动通信有限公司 音频数据的获取方法、装置、存储介质及终端
CN109545193A (zh) * 2018-12-18 2019-03-29 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109767783A (zh) * 2019-02-15 2019-05-17 深圳市汇顶科技股份有限公司 语音增强方法、装置、设备及存储介质
CN109982179A (zh) * 2019-04-19 2019-07-05 努比亚技术有限公司 音频信号输出方法、装置、可穿戴设备及存储介质
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN114424581A (zh) * 2019-09-12 2022-04-29 深圳市韶音科技有限公司 用于音频信号生成的系统和方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0630490A (ja) * 1992-05-12 1994-02-04 Katsuo Motoi イヤーセット型送受話器
JPH1023122A (ja) * 1996-06-28 1998-01-23 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2014096732A (ja) * 2012-11-09 2014-05-22 Oki Electric Ind Co Ltd 収音装置及び電話機
EP2811485A1 (en) * 2013-06-07 2014-12-10 Fujitsu Limited Sound correcting apparatus, sound correcting program, and sound correcting method
CN109240639A (zh) * 2018-08-30 2019-01-18 Oppo广东移动通信有限公司 音频数据的获取方法、装置、存储介质及终端
CN109545193A (zh) * 2018-12-18 2019-03-29 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109767783A (zh) * 2019-02-15 2019-05-17 深圳市汇顶科技股份有限公司 语音增强方法、装置、设备及存储介质
CN109982179A (zh) * 2019-04-19 2019-07-05 努比亚技术有限公司 音频信号输出方法、装置、可穿戴设备及存储介质
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN114424581A (zh) * 2019-09-12 2022-04-29 深圳市韶音科技有限公司 用于音频信号生成的系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023029615A1 (zh) * 2021-08-30 2023-03-09 华为技术有限公司 语音唤醒的方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN114822566A (zh) 2022-07-29
CN114822565A (zh) 2022-07-29
CN112581970B (zh) 2024-10-22

Similar Documents

Publication Publication Date Title
EP4005226B1 (en) Systems and methods for audio signal generation
US11812223B2 (en) Electronic device using a compound metric for sound enhancement
CN110060666B (zh) 听力装置的运行方法及基于用语音可懂度预测算法优化的算法提供语音增强的听力装置
CN111833896B (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
Aroudi et al. Cognitive-driven binaural beamforming using EEG-based auditory attention decoding
CN116569564A (zh) 骨传导耳机语音增强系统和方法
US20180176698A1 (en) Method of operating a hearing aid, and hearing aid
CN112581970B (zh) 用于音频信号生成的系统和方法
US20230209283A1 (en) Method for audio signal processing on a hearing system, hearing system and neural network for audio signal processing
US20230388721A1 (en) Hearing aid system comprising a sound source localization estimator
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
AU2020316738B2 (en) Speech-tracking listening device
CN112911477A (zh) 包括个人化波束形成器的听力系统
WO2024002896A1 (en) Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model
TW202244898A (zh) 用於音訊信號產生的系統和方法
RU2804933C2 (ru) Системы и способы выработки аудиосигнала
WO2022141364A1 (zh) 生成音频的方法和系统
CN118471252A (zh) 空间音频处理方法、装置、电子设备、存储介质
Grant et al. Modeling auditory and auditory-visual speech intelligibility: Challenges and possible solutions
Ritch et al. A Triple-Microphone Real-Time Speech Enhancement Algorithm Based on Approximate Array Analytical Solutions
Sadjadi et al. Towards more intelligible physiological microphone speech: A probabilistic transformation approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045899

Country of ref document: HK

GR01 Patent grant