CN114424581A - 用于音频信号生成的系统和方法 - Google Patents

用于音频信号生成的系统和方法 Download PDF

Info

Publication number
CN114424581A
CN114424581A CN201980100309.9A CN201980100309A CN114424581A CN 114424581 A CN114424581 A CN 114424581A CN 201980100309 A CN201980100309 A CN 201980100309A CN 114424581 A CN114424581 A CN 114424581A
Authority
CN
China
Prior art keywords
audio data
bone conduction
frequency
air conduction
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980100309.9A
Other languages
English (en)
Inventor
周美林
廖风云
齐心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Voxtech Co Ltd
Original Assignee
Shenzhen Voxtech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Voxtech Co Ltd filed Critical Shenzhen Voxtech Co Ltd
Publication of CN114424581A publication Critical patent/CN114424581A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/46Special adaptations for use as contact microphones, e.g. on musical instrument, on stethoscope
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/60Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
    • H04R25/604Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
    • H04R25/606Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers acting directly on the eardrum, the ossicles or the skull, e.g. mastoid, tooth, maxillary or mandibular bone, or mechanically stimulating the cochlea, e.g. at the oval window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/55Communication between hearing aids and external devices via a network for data exchange
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

本申请涉及用于音频信号生成的系统和方法。该方法可以包括获取由骨传导传感器采集的第一音频数据(510);获取由气传导传感器采集的第二音频数据,第一音频数据和第二音频数据代表用户的语音,所述第一音频数据和第二音频数据由不同的频率成分组成(520);该方法也可以包括基于第一音频数据和第二音频数据生成第三音频数据(540)。

Description

用于音频信号生成的系统和方法
技术领域
本申请一般涉及信号处理领域,具体地,涉及用于基于骨导音频信号和气导音频信号生成音频信号的系统和方法。
背景技术
随着电子设备的广泛使用,人们之间的通信变得越来越方便。当使用电子设备进行通信时,用户可以依靠麦克风在用户说话时采集语音信号。由麦克风采集的语音信号可以表示用户的语音。然而,由于,例如麦克风本身的性能、噪声等,有时难以确保麦克风采集的语音信号是充分地可理解的(即,信号的保真度)。特别是在工厂、汽车、飞机、船舶、商场等公共场合中,不同的背景噪声严重影响了通信质量。因此,希望提供用于生成具有较少噪声和/或改进的保真度的音频信号的系统和方法。
发明内容
根据本申请的第一方面,提供一种用于音频信号生成的系统。该系统可以包括至少一个存储介质和至少一个与该至少一个存储介质通信的处理器。至少一种存储介质,包括指令。当执行所述指令时,所述系统执行一个或以上下述操作。系统可以获取由骨传导传感器采集的第一音频数据。系统可以获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成。系统基于所述第一音频数据和所述第二音频数据生成第三音频数据。所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
在一些实施例中,系统可以对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据。系统基于所述预处理后的第一音频数据和所述第二音频数据,生成所述第三音频数据。
在一些实施例中,所述第一预处理操作包括归一化操作。
在一些实施例中,系统可以获取训练后的机器学习模型。系统基于所述第一音频数据,使用所述训练后的机器学习模型确定所述预处理后的第一音频数据。所述预处理后的第一音频数据中高于第二频率点的频率成分相对于所述第一音频数据中高于所述第二频率点的频率成分增加。
在一些实施例中,系统获取多组训练数据。所述多组训练数据中的每组训练数据包括代表语音样本的骨导音频数据和气导音频数据。系统使用所述多组训练数据训练初级机器学习模型。在所述初级机器学习模型的训练过程中,所述多组训练数据中的每组训练数据中的所述骨导音频数据作为所述初级机器学习模型的输入,以及与所述骨导音频数据对应的所述气导音频数据为所述初级机器学习模型的期望输出。
在一些实施例中,用于采集所述至少两个训练数据组中每组训练数据的所述骨导音频数据的特定骨传导传感器所在的身体部位与用于采集所述第一音频数据的所述骨传导传感器所在的所述用户的身体部位相同。
在一些实施例中,所述初级机器学习模型基于递归神经网络模型或长短期记忆网络构建。
在一些实施例中,系统可以获取滤波器,所述滤波器用于提供特定气导音频数据与所述特定气导音频数据对应的特定骨导音频数据之间的关系。使用所述滤波器处理所述第一音频数据以确定所述预处理后的第一音频数据。
在一些实施例中,系统可以对所述第二音频数据执行第二预处理操作以获取预处理后的第二音频数据。系统可以基于所述第一音频数据和所述第二音频数据生成第三音频数据。
在一些实施例中,所述第二预处理操作包括降噪操作。
在一些实施例中,系统可以至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个确定一个或以上频率阈值。系统可以基于所述一个或以上频率阈值、所述第一音频数据以及所述第二音频数据生成所述第三音频数据。
在一些实施例中,系统可以确定与所述第二音频数据相关的噪声水平。系统可以基于与所述第二音频数据相关的噪声水平,确定所述一个或以上频率阈值中的至少一个。
在一些实施例中,与所述第二音频数据相关联的所述噪声水平由所述第二音频数据的信噪比表示。系统可以由以下操作确定所述第二音频数据的所述信噪比。系统可以使用所述骨传导传感器和所述气传导传感器确定所述第二音频数据中的噪声的能量。
在一些实施例中,与所述第二音频数据相关联的所述噪声水平越大,所述一个或以上频率阈值中的至少一个频率阈值越大。
在一些实施例中,系统可以基于与所述第一音频数据相关联的频率响应曲线确定所述一个或以上频率阈值中的至少一个。
在一些实施例中,系统可以基于所述频率点、所述第一音频数据以及所述第二音频数据生成所述第三音频数据。
在一些实施例中,系统可以确定所述第一音频数据的低频部分,所述低频部分包括低于所述一个或以上频率阈值中的某个频率阈值的频率成分。系统可以确定所述第二音频数据的高频部分,所述高频部分包括高于所述一个或以上频率阈值中的所述某个频率阈值的频率成分。系统可以拼接所述第一音频数据的所述低频部分和所述第二音频数据的所述高频部分以生成所述第三音频数据。
在一些实施例中,系统可以确定多个频率范围。系统可以分别确定位于所述多个频率范围的每个频率范围内的所述第一音频数据的一部分和所述第二音频数据的一部分的第一权重和第二权重。系统可以通过分别使用所述第一权重和所述第二权重,对位于所述多个频率范围中的每个频率范围内的所述第一音频数据的所述部分和所述第二音频数据的所述部分进行加权以确定所述第三音频数据。
在一些实施例中,系统可以至少部分地基于所述频率点,分别地确定所述第一音频数据的第一部分和所述第一音频数据的第二部分的第一权重和第二权重。所述第一音频数据的所述第一部分包括低于所述频率点的频率成分,以及所述第一音频数据的所述第二部分包括高于所述频率点的频率成分。系统可以至少部分地基于所述频率点,分别地确定所述第二音频数据的第三部分和所述第二音频数据的第四部分的第三权重和第四权重。所述第二音频数据的所述第三部分包括低于所述频率点的频率成分以及所述第二音频数据的所述第四部分包括高于所述频率点的频率成分。系统可以通过使用所述第一权重、所述第二权重、所述第三权重、所述第四权重对所述第一音频数据的所述第一部分、所述第一音频数据的所述第二部分、所述第二音频数据的所述第三部分和所述第二音频数据的所述第四部分进行加权以确定所述第三音频数据。
在一些实施例中,系统可以至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述第一音频数据的第一权重。系统可以至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述第二音频数据的第二权重。系统可以通过所述第一权重和所述第二权重对所述第一音频数据和所述第二音频数据的加权以确定所述第三音频数据。
在一些实施例中,系统可以对所述第三音频数据执行后处理操作以获取目标音频数据,所述目标音频数据代表所述用户的所述语音,所述目标音频数据比所述第一音频数据和所述第二音频数据具有更高的保真度。
在一些实施例中,系统可以所述后处理操作包括降噪操作。
根据本申请的第二方面,提供了一种音频信号生成的方法。该方法可以在至少一个计算设备上实现,每个计算设备可以包括至少一个处理器和存储设备。该方法可以包括以下操作中的一个或多个。该方法可以包括用于获取由骨传导传感器采集的第一音频数据和由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成;用于基于所述第一音频数据和所述第二音频数据生成第三音频数据,其中,所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
根据本申请的第三方面,提供了一种音频信号生成的系统,在计算设备上实现的系统可以具有连接到网络的处理器,存储介质和通信平台。该系统可以包括获取模块,用于获取由骨传导传感器采集的第一音频数据以及由气传导传感器采集的第二音频数据。所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成。该系统还可以包括音频数据生成模块,用于基于所述第一音频数据和所述第二音频数据生成第三音频数据。所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
根据本申请的第四方面,提供了一种计算机可读介质。计算机可读介质可存储指令。当至少一个处理设备执行所述指令时,所述至少一个处理设备执行一个或以上下述操作。至少一个处理设备可以获取由骨传导传感器采集的第一音频数据。至少一个处理设备可以获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成。至少一个处理设备基于所述第一音频数据和所述第二音频数据生成第三音频数据。所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
与现有技术相比,本发明的有益效果表现如下:
(一)基于骨导传感器和气导器同时采集的骨导音频数据和气导音频数据生成音频数据,使得生成的音频数据相对于骨导音频数据高频成分增加,提高了骨导信号的保真度与可懂性;生成的音频数据相对于气导音频数据噪声减少,降低了气导信号的噪声,提高了气导信号的保真度;
(二)在音频数据生成前,对骨导音频数据重构,可以增加骨导音频数据中的高频成分,使骨导音频数据的声学特征更加接近气导音频数据的特征,提高骨导音频数据的质量,从而进一步提高了生成的音频数据的质量;
(三)基于环境噪声等因素选择不同的频率拼接点对骨导音频数据和气导音频数据进行拼接生成音频数据,可以在降低音频数据的噪声的同时保证音频数据的保真度。
本申请的一部分附加特性可以在下面的描述中进行说明。通过对以下描述和相应附图的研究或者对实施例的生产或操作的了解,本申请的一部分附加特性对于本领域技术人员是明显的。本申请的特征可以通过对以下描述的具体实施例的各种方面的方法、手段和组合的实践或使用得以实现和达到。
附图说明
本申请将通过示例性实施例进行进一步描述。这些示例性实施例将通过附图进行详细描述。这些实施例是非限制性的示例性实施例,在这些实施例中,各图中相同的编号表示相似的结构,其中:
图1是根据本申请的一些实施例所示的示例性音频信号生成系统的示意图;
图2是根据本申请的一些实施例所示的计算设备的示例性硬件和软件组件的示意图;
图3是根据本申请的一些实施例所示的移动设备的示例性硬件组件和/或软件组件的示意图;
图4A是根据本申请的一些实施例所示的示例性处理设备的框图;
图4B是根据本申请的一些实施例所示的示例性音频数据生成模块的框图;
图5是根据本申请的一些实施例所示的用于生成音频信号的示例性过程的流程图;
图6是根据本申请的一些实施例所示的使用训练后的机器学习模型重构骨导音频数据的示例性过程的流程图;
图7是根据本申请的一些实施例所示的利用谐波修正模型重构骨导音频数据的示例性过程的流程图;
图8是根据本申请的一些实施例所示的利用稀疏矩阵技术重构骨导音频数据的示例性过程的流程图;
图9是根据本申请的一些实施例所示的用于生成音频数据的示例性过程的流程图;
图10是根据本申请的一些实施例所示的用于生成音频数据的示例性过程的流程图;
图11是根据本申请的一些实施例所示的骨导音频数据、相应的重构骨音频数据和相应的气导音频数据的频率响应曲线图;
图12A是根据本申请的一些实施例所示的由位于使用者身体的不同部位的骨传导传感器采集的骨导音频数据的频率响应曲线图;
图12B是根据本申请的一些实施例所示的由位于使用者身体的不同部位的骨传导传感器采集的骨导音频数据的频率响应曲线图;
图13A是根据本申请的一些实施例所示的根据2000Hz的频率拼接点拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图;
图13B是根据本申请的一些实施例所示的根据2000Hz的频率拼接点拼接骨导音频数据和利用维纳滤波器对气导音频数据进行降噪后的气导音频数据生成的拼接音频数据的时频图;
图13C是根据本申请的一些实施例所示的根据2000Hz的频率拼接点拼接骨导音频数据和利用谱减法对气导音频数据进行降噪后的气导音频数据生成的拼接音频数据的时频图;
图14A是根据本申请的一些实施例所示的骨导音频数据的时频图;
图14B是根据本申请的一些实施例所示的气导音频数据的时频图;
图14C是根据本申请的一些实施例所示根据2000Hz的频率拼接点拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图;
图14D是根据本申请的一些实施例所示根据3000Hz的频率拼接点拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图;和
图14E是根据本申请的一些实施例所示根据4000Hz的频率拼接点拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图。
具体实施方式
为了更清楚地说明本申请的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。然而,本领域技术人员应该明白,可以在没有这些细节的情况下实施本申请。在其他情况下,为了避免不必要地模糊本申请的一些方面,本申请已经较高级别(没有细节)描述了公知的方法、程序、系统、组件和/或电路。对于本领域的普通技术人员来讲,显然可以对所披露的实施例作出各种改变,并且在不偏离本申请的原则和范围的情况下,本申请中所定义的普遍原则可以适用于其他实施例和应用场景。因此,本申请不限于所示的实施例,而是符合与申请专利范围一致的最广泛范围。
本申请中所使用的术语仅用于描述特定的示例性实施例,并不限制本申请的范围。如本申请使用的单数形式“一”、“一个”及“该”可以同样包括复数形式,除非上下文明确提示例外情形。还应当理解,如在本申请说明书中,术语“包括”、“包含”仅提示存在所述特征、整体、步骤、操作、组件和/或部件,但并不排除存在或添加一个或以上其他特征、整体、步骤、操作、组件、部件和/或其组合的情况。
应当理解的是,本文使用的“系统”、“引擎”、“单元”、“模块”和/或“区块”是用于按升序区分不同级别的不同构件、元素、部件、部分或组件的方法。但是,如果其他表达方式可以达到同样的目的,则可能会被其他表达方式所取代。
通常,这里使用的词语“模块”、“单元”或“块”是指体现在硬件或固件中的逻辑,或者是软件指令的集合。这里描述的模块,单元或块可以实现为软件和/或硬件,并且可以存储在任何类型的非暂时性计算机可读介质或其他存储设备中。在一些实施例中,可以编译软件模块/单元/块并将其链接到可执行程序中。应当理解,软件模块可以从其他模块/单元/块或从它们自身调用,和/或可以响应检测到的事件或中断来调用。配置用于在计算设备上执行的软件模块/单元/块可以在计算机可读介质上提供,例如光盘、数字视频光盘、闪存驱动器、磁盘或任何其他有形介质,或者作为数字下载(并且最初可以以压缩或可安装的格式存储,在执行之前需要安装、解压缩或解密)。这里的软件代码可以被部分的或全部的储存在执行操作的计算设备的存储设备中,并应用在计算设备的操作之中。软件指令可以嵌入固件中,例如可擦除可编程只读内存(EPROM)。还应当理解,硬件模块/单元/块可以包括在连接的逻辑组件中,例如门和触发器,和/或可以包括可编程单元,例如可编程门阵列或处理器。这里描述的模块/单元/块或计算设备功能可以实现为软件模块/单元/块,但是可以用硬件或固件表示。通常,这里描述的模块/单元/块指的是逻辑模块/单元/块,其可以与其他模块/单元/块组合或者分成子模块/子单元/子块,尽管它们是物理组织或存储器件。该描述可适用于系统、引擎或其一部分。
应当理解,当单元、引擎、模块或块被称为“接通”、“连接到”或“耦合到”另一个单元、引擎、模块或块时,除非上下文另有明确说明,否则它可以指直接设置在其他单元、发动机、模块或块上,也可以指连接、耦合、或与其通信,或者还可以存在中间单元、引擎、模块或块进行连接或通信。在本申请中,术语“和/或”可包括任何一个或以上相关所列条目或其组合。
根据以下对附图的描述,本申请的这些和其他的特征、特点以及相关结构元件的功能和操作方法,以及部件组合和制造经济性,可以变得更加显而易见,这些附图都构成本申请说明书的一部分。然而,应当理解的是,附图仅仅是为了说明和描述的目的,并不旨在限制本申请的范围。应当理解的是,附图并不是按比例绘制的。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,流程图中的操作可以不按顺序执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将一个或以上其他操作添加到这些流程图中。也可以从流程图中删除一个或以上操作。
本申请提供了用于音频信号生成的系统和方法。该系统和方法可以获取由骨传导传感器采集的第一音频数据(也可称为骨导音频数据)。该系统和方法可以获取由气传导传感器采集的第二音频数据(也可称为气导音频数据)。骨导音频数据和气导音频数据可以表示用户的语音,所述骨导音频数据和第气导音频数据各自由不同的频率成分组成。该系统和方法可以基于骨导音频数据和气导音频数据生成音频数据。所述生成的音频数据中高于某一频率点的频率成分相对于骨导音频数据中高于所述频率点的频率成分增加。该系统和方法可以基于生成的音频数据确定表示用户语音的目标音频数据,所述目标音频数据具有比骨导音频数据和气导音频数据更高的保真度。根据本申请,基于骨导音频数据和气导音频数据生成的音频数据相对于骨导音频数据具有更多的高频成分,相对于气导音频数据具有更少的噪声,这可以提高生成的音频数据相对于骨导音频数据和气导音频数据的保真度和可懂性。在一些实施例中,可以通过增加骨导音频数据中的高频成分重构骨导音频数据获取重构的骨导音频数据,重构的骨导音频数据更接近气导音频数据,相对于骨导音频数据,重构的气导音频数据质量更高,可进一步提高生成的音频数据的质量。在一些实施例中,可以通过基于环境噪声等因素选择不同的频率拼接点对骨导音频数据和气导音频数据进行拼接生成音频数据,可以在降低音频数据的噪声的同时保证音频数据的保真度。
图1是根据本申请的一些实施例所示的示例性音频信号生成系统100的示意图。音频信号生成系统100可以包括音频采集设备110、服务器120、终端130、存储设备140和网络150。
音频采集设备110可以在用户说话时采集用户的声音或语音来获取音频数据(例如,音频信号)。例如,当用户说话时,用户发出的声音会引起用户嘴巴周围的空气振动和/或使用者身体的组织(例如,头骨)振动。音频采集设备110可以接收振动并将振动转换成电信号(例如,模拟信号或数字信号),也可称为音频数据。音频数据可以以电信号的形式经由网络150发送到服务器120/终端130和/或存储设备140。在一些实施例中,音频采集设备110可以包括录音器、耳机(例如,蓝牙耳机、有线耳机)、助听器设备等。
在一些实施例中,音频采集设备110可以通过无线(例如,网络150)和/或有线方式与扬声器连接。音频采集设备110可以将采集到的音频数据发送到扬声器以播放和/或再现用户的语音。在一些实施例中,扬声器和音频采集设备110可以集成在一个单独的设备中,例如耳机。在一些实施例中,音频采集设备110和扬声器可以彼此分离。例如,音频采集设备110可以安装在第一终端(例如,耳机)中,扬声器可以安装在另一终端(例如,终端130)中。
在一些实施例中,音频采集设备110可包括骨传导麦克风112和气传导麦克风114。骨传导麦克风112可包括用于采集骨导音频数据的骨传导传感器。骨传导传感器可以在用户说话时采集通过用户骨骼(例如,颅骨)组织传导的振动信号来生成骨导音频数据。在一些实施例中,骨传导传感器可以形成骨传导传感器阵列。在一些实施例中,骨传导麦克风112可以放置在使用者身体的某个部位处和/或与使用者身体的某个部位接触,采集骨导音频数据。使用者身体的部位可包括前额、颈部(例如,喉咙处)、面部(例如,嘴巴周围的区域、下巴)、头部的顶部、乳突、耳朵周围的区域、耳朵内部的区域、太阳穴等,或其任何组合。例如,骨传导麦克风112可以放置在耳屏、耳廓、内耳道、外耳道等处和/或与耳屏、耳廓、内耳道、外耳道等处接触。在一些实施例中,骨导音频数据的声学特征可能因为骨传导麦克风112所处和/或接触的使用者身体的部位的不同而不同。例如,位于耳朵周围区域的骨传导麦克风112采集的骨导音频数据比位于前额的骨传导麦克风112采集骨导音频数据具有更高的能量。气传导麦克风114可包括一个或以上气传导传感器,用于在用户说话时采集通过气传导的气导音频数据。在一些实施例中,气传导传感器可以形成气传导传感器阵列。在一些实施例中,气体传导麦克风114可以放置在距离使用者嘴巴一定范围(例如,0cm、1cm、2cm、5cm、10cm、20cm等)内。气导音频数据的声学特征(例如,气导音频数据的平均幅度)根据气体传导麦克风114和使用者嘴巴之间的不同距离可以是不同的。例如,气体传导麦克风114与使用者嘴巴之间的距离越大,气导音频数据的平均幅度可能越小。
在一些实施例中,服务器120可以是单个服务器,也可以是服务器组。服务器组可以是集中的(例如,数据中心)或分布式的(例如,服务器120可以是分布式系统)。在一些实施例中,服务器120可以是本地的,也可以是远程的。例如,服务器120可以经由网络150访问存储在终端130和/或存储设备140中的信息和/或数据。又例如,服务器120可以直接连接到终端130和/或存储设备140以访问存储的信息和/或数据。在一些实施例中,服务器120可以在云平台上实施。仅作为示例,该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。在一些实施例中,服务器120可以在计算设备200上实现,该计算设备200具有本申请中的图2中所示的一个或以上组件。
在一些实施例中,服务器120可包括处理设备122。处理设备122可以处理与音频信号生成有关的信息和/或数据,以执行本申请中描述的一个或以上的功能。例如,处理设备122可以获取由骨传导麦克风112采集的骨导音频数据和由气传导麦克风114采集的气导音频数据,其中骨导音频数据和气导音频数据表示相同的用户(或使用者)的语音。处理设备122可以基于骨导音频数据和气导音频数据生成目标音频数据。又例如,处理设备122可以从存储设备140或任何其他存储设备获得训练后的机器学习模型和/或构造后的滤波器。处理设备122可以使用训练后的机器学习模型和/或构造后的滤波器来重构骨导音频数据。再例如,处理设备122可以通过使用多组语音样本(即训练数据)训练初级机器学习模型以确定训练后的机器学习模型。多组语音样本中的每组语音样本可以包括表示相同的用户语音的骨导音频数据和气导音频数据。作为又一示例,处理设备122可以对气导音频数据执行降噪操作以获取降噪气导音频数据。处理设备122基于重构的骨导音频数据和降噪后的气导音频数据生成目标音频数据。在一些实施例中,所述处理设备122可包括一个或以上处理引擎(例如,单芯片处理引擎或多芯片处理引擎)。仅作为示例,处理设备122可以包括中央处理单元(CPU)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等或其任意组合。
在一些实施例中,终端130可以包括移动设备130-1、平板电脑130-2、膝上型计算机130-3、车辆130-4中的内置设备、可穿戴设备130-5等,或其任何组合。在一些实施例中,移动设备130-1可以包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备等,或其任何组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器控制设备、智能监控设备、智能电视、智能摄像机、对讲机等,或其任意组合。在一些实施例中,智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)等,或其任意组合。在一些实施例中,虚拟现实设备和/或增强现实设备包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等,或其任意组合。例如,虚拟现实设备和/或增强现实设备可包括GoogleTM眼镜、Oculus Rift、HoloLens、GearVR等。在一些实施例中,车载设备130-4可以包括车载计算机、车载电视等。在一些实施例中,终端130可以是具有定位技术的设备,用于定位乘客和/或终端130的位置。在一些实施例中,可穿戴设备130-5可包括智能手环、智能鞋袜、智能眼镜、智能头盔、智能手表、智能服装、智能背包、智能配件等,或其任何组合。在一些实施例中,音频采集设备110可以集成于终端130。
存储设备140可以存储数据和/或指令。例如,存储设备140可以存储多组语音样本的数据、一个或以上机器学习模型、训练后的机器学习模型和/或构造后的滤波器、由骨传导麦克风112和气传导麦克风114采集的音频数据等。在一些实施例中,存储设备140可以存储从终端130和/或音频采集设备110获取的数据。在一些实施例中,存储设备140可以存储服务器120可以执行用于执行本发明中描述的示例性方法的数据和/或指令。在一些实施例中,存储设备140可包括质量存储器、可移除存储器、易失性读写内存、只读内存(ROM)等,或其任何组合。示例性大容量存储器件可包括磁盘、光盘、固态驱动器等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、内存卡、压缩盘、磁带等。示例性易失性读写内存可以包括随机存取内存(RAM)。示例性RAM可包括动态随机存取内存(DRAM)、双倍数据速率同步动态随机存取内存(DDR SDRAM)、静态随机存取内存(SRAM)、晶闸管随机存取内存(T-RAM)和零电容随机存取内存(Z-RAM)等。示例性ROM可以包括掩模型只读内存(MROM)、可编程只读内存(PROM)、可擦除可编程只读内存(EPROM)、电可擦除可编程只读内存(EEPROM)、光盘只读内存(CD-ROM)和数字多功能磁盘只读内存等。在一些实施例中,所述存储设备140可在云端平台上执行。仅作为示例,该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
在一些实施例中,存储设备140可以连接到网络150,以与音频信号生成系统100的一个或以上组件(例如,音频采集设备110、服务器120和终端130)通信。音频信号生成系统100的一个或以上组件可以经由网络150访问存储设备140中存储的数据或指令。在一些实施例中,存储设备140可以直接连接到音频信号生成系统100的一个或以上组件(例如,音频采集设备110、服务器120和终端130)或与之通信。在一些实施例中,存储设备140可以是服务器120的一部分。
网络150可以促进信息和/或数据的交换。在一些实施例中,音频信号生成系统100的一个或以上组件(例如,音频采集设备110、服务器120、终端130和存储设备140)可以经由网络150将信息和/或数据发送到音频信号生成系统100的其他组件。例如,服务器120可以经由网络150从终端130获取骨导音频数据和气导音频数据。在一些实施例中,网络150可以为任意形式的有线或无线网络,或其任意组合。仅作为示例,网络150可以包括电缆网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通信(NFC)网络等或其任意组合。在一些实施例中,网络150可以包括一个或以上网络接入点。例如,网络150可以包括有线或无线网络接入点,例如基站和/或互联网交换点,音频信号生成系统100的一个或以上组件可通过其连接到网络150以交换数据和/或信息。
本领域普通技术人员将理解,当音频信号生成系统100的元件(或组件)执行时,该元件可以通过电信号和/或电磁信号执行。例如,当骨传导麦克风112将骨导音频数据发送到服务器120时,骨传导麦克风112的处理器可以生成编码骨导音频数据的电信号。然后,骨传导麦克风112的处理器可以将电信号传输到输出端口。如果骨传导麦克风112经由有线网络与服务器120通信,则输出端口可以物理地连接到电缆,电缆还可以将电信号传输到服务器120的输入端口。如果骨传导麦克风112经由无线网络与服务器120通信,则骨传导麦克风112的输出端口可以是一个或以上天线,其将电信号转换为电磁信号。类似地,气体传导麦克风114可以经由电信号或电磁信号将气导音频数据传输到服务器120。在诸如终端130和/或服务器120的电子设备内,当其处理器处理指令,发出指令和/或执行动作时,指令和/或动作通过电信号进行。例如,当处理器从存储介质检索或获取数据时,可以将电信号发送给存储介质的读/写设备,该读/写设备可读取存储介质中的结构化数据或将结构化数据写入存储介质中。该结构数据可以通过电子设备的总线,以电信号的形式传输至处理器。此处,电信号可以指一个电信号、一系列电信号和/或至少两个不连续的电信号。
图2示出了根据本申请的一些实施例的示例性计算设备的示意图。计算设备可以是计算机,例如图1中的服务器120和/或具有特定功能的计算机,被配置用于实现根据本申请的一些实施例的任何特定系统。计算设备200可以被配置用于实现执行本申请中披露的一个或以上功能的任何组件。例如,服务器120可以以计算设备200之类的计算机的硬件设备、软件程序、固件或其任何组合来实现。为简洁起见,图2仅描绘了一个计算设备。在一些实施例中,计算设备的功能可以由分布式模式中的一组类似平台来实现,以分散系统的处理负荷。
计算设备200可以包括通信端口250,其可以与可以实现数据通信的网络连接。计算设备200还可以包括处理器220,其被配置为执行指令并且包括一个或以上处理器。计算机平台可以包括内部通信总线210,不同类型的程序存储单元和数据存储单元(例如,硬盘270、只读内存(ROM)230、随机存取内存(RAM)240),适用于计算机处理和/或通信的各种数据文件,以及可能由处理器220执行的一些程序指令。计算设备200还可以包括I/O设备260,其可以支持计算设备200和其他组件之间的数据流的输入和输出。此外,计算设备200可以通过通信网络接收程序和数据。
图3是示出根据本申请的一些实施例的示例性移动设备的示例性硬件和/或软件组件的示意图。如图3所示,移动设备300可以包括相机305、通信平台310、显示器320、图形处理单元(GPU)330、中央处理单元(CPU)340、I/O 350、内存360、移动操作系统(OS)370、应用程序和存储器390。在一些实施例中,任何其他合适的组件,包括但不限于系统总线或控制器(未示出),也可包括在移动设备300内。
在一些实施例中,操作系统370(例如,
Figure BDA0003543861570000141
Windows Phone等)和一个或以上应用程序380可从存储器390下载至内存360以及由CPU340执行。应用程序380可以包括浏览器或任何其他合适的移动应用程序,用于从音频信号生成系统100接收和呈现与音频数据处理或其他信息有关的信息。用户与信息流的交互可以通过I/O 350实现,并提供给数据库130、服务器105和/或音频信号生成系统100的其他组件。在一些实施例中,移动设备300可以是对应于终端130的示例性实施例。
为了实现在本发明中描述的各种模块、单元及其功能,计算设备或移动设备可以用作本发明所描述的一个或多个组件的硬件平台。这种计算机的硬件元件,操作系统和编程语言本质上是常规的,并且假设本领域普通技术人员对其进行了充分的熟悉以使那些技术适应于生成如本文所述的音频和/或获取语音样本。一台包含用户界面元素的计算机能够被用作个人计算机(personal computer(PC))或其他类型的工作站或终端设备,被适当程序化后也可以作为服务器使用。可知,本领域技术人员应熟悉该计算机装置的结构、程序设计和一般操作,因此,图对其应是不解自明的。
本领域普通技术人员将理解,当系统100的元件执行时,该元件可以通过电信号和/或电磁信号执行。例如,当服务器120处理任务时,例如确定训练后的机器学习模型,服务器120可以在其处理器中操作逻辑电路以处理这样的任务。当服务器120完成确定训练后的机器学习模型时,服务器120的处理器可以生成编码训练后的机器学习模型的电信号。然后,服务器120的处理器可以将电信号发送到与服务器120相关联的目标系统的至少一个数据交换端口。服务器120通过有线网络与目标系统通信,至少一个数据交换端口可以物理连接到电缆,这可以进一步将电信号传输到终端130的输入端口(例如,信息交换端口)。如果服务器120经由无线网络与目标系统通信,则目标系统的至少一个数据交换端口可以包括一个或以上天线,其可以将电信号转换为电磁信号。在诸如终端130和/或服务器120的电子设备内,当其处理器处理指令,发出指令和/或执行动作时,指令和/或动作通过电信号进行。例如,当处理器从存储介质(例如存储设备140)检索或保存数据时,它可以向存储介质的读/写设备发送电信号,该读/写设备可以在存储介质中读取或写入结构化数据。该结构数据可以通过电子设备的总线,以电信号的形式传输至处理器。在此处,电信号可以是一个电信号、一系列电信号和/或至少两个独立的电信号。
图4A是示出根据本申请的一些实施例的示例性处理设备的框图。在一些实施例中,处理设备122可以在图2所示的计算设备200(例如,处理器220)或如图3所示的CPU 340上实现。如图4所示,处理设备122可以包括获取模块410、预处理模块420、音频数据生成模块430和存储模块440。上述每个模块可以是设计用于执行某些动作的硬件电路,例如,根据存储在一个或以上存储介质中的指令,和/或硬件电路和一个或以上存储介质的任何组合。
获取模块410可以被配置为获取用于生成音频信号的数据。例如,获取模块410可以获取原始音频数据、一个或以上模型、用于训练机器学习模型的训练数据等。在一些实施例中,获取模块410可以获取由骨传导传感器采集的第一音频数据。如本文所用,骨传导传感器可以指能够在用户说话时采集由用户的骨组织(例如,颅骨)传导的振动信号的任何传感器(例如,骨传导麦克风112),如本申请中其他地方所述(例如,图1和其描述)。在一些实施例中,第一音频数据可以包括时域中的音频信号、频率域中的音频信号等。第一音频数据可包括模拟信号或数字信号。获取模块410也可以获取由气传导传感器采集的第二音频数据。气体传导传感器可以指能够在用户说话时采集由气传导的振动信号的任何传感器(例如,气体传导麦克风114),如本申请中其他地方所述(例如,图1及其描述)。在一些实施例中,第二音频数据可以包括时域中的音频信号及频率域中的音频信号等。第二音频数据可包括模拟信号或数字信号。在一些实施例中,获取模块410可以获得用于重构第一音频数据的训练后的机器学习模型、构造后的滤波器、谐波修正模型等。在一些实施例中,处理设备122可以通过网络150实时或周期性地从气传导传感器(例如,气传导麦克风114)、终端130、存储设备140或任何其他存储设备获取一个或以上模型、第一音频数据和/或第二音频数据。
预处理模块420可以被配置用于预处理第一音频数据和/或第二音频数据。第一音频数据和第二音频数据经过预处理后也可以分别被称为预处理后的第一音频数据和预处理后的第二音频数据。示例性预处理操作可以包括域变换操作、信号校准操作、音频重构操作、语音增强操作等。在一些实施例中,预处理模块420可以通过执行傅立叶变换或逆傅立叶变换来执行域变换操作。在一些实施例中,预处理模块420可以对第一音频数据和/或第二音频数据执行归一化操作,以获得归一化的第一音频数据和/或归一化的第二音频数据,用于校准第一音频数据和/或第二音频数据。在一些实施例中,预处理模块420可以对第二音频数据(或归一化的第二音频数据)执行语音增强操作。在一些实施例中,预处理模块420可以对第二音频数据(或归一化的第二音频数据)执行降噪操作以获得降噪的第二音频数据。在一些实施例中,预处理模块420可以使用训练后的机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等,或其任何组合对第一音频数据(或归一化的第一音频数据)执行音频重构操作以生成重构的第一音频数据。
音频数据生成模块430可以被配置为基于第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)生成第三音频数据。在一些实施例中,与第三音频数据相关联的噪声水平可以低于与第二音频数据(或预处理后的第二音频数据)相关联的噪声水平。在一些实施例中,音频数据生成模块430可以基于第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)根据一个或以上频率阈值生成第三音频数据。在一些实施例中,音频数据生成模块430可以确定单个频率阈值。音频数据生成模块430可以根据单个频率阈值在频率域中拼接第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)以生成第三音频数据。
在一些实施例中,音频数据生成模块430可以至少部分基于频率阈值,分别确定第一音频数据(或预处理后的第一音频数据)的低频部分和第一音频数据(或预处理后的第一音频数据)的高频部分的第一权重和第二权重。第一音频数据(或预处理后的第一音频数据)的低频部分包括了第一音频数据(或预处理后的第一音频数据)中小于所述频率阈值的频率成分。第一音频数据(或预处理后的第一音频数据)的高频部分包括了第一音频数据(或预处理后的第一音频数据)中大于所述频率阈值的频率成分。在一些实施例中,音频数据生成模块430可以至少部分基于频率阈值,分别确定第二音频数据(或预处理后的第二音频数据)的低频部分和第二音频数据的高频部分(或预处理后的第二音频数据)的第三权重和第四权重。第二音频数据(或预处理后的第二音频数据)的低频部分包括了第二音频数据(或预处理后的第二音频数据)中小于所述频率阈值的频率成分。第二音频数据(或预处理后的第二音频数据)的高频部分包括了第二音频数据(或预处理后的第二音频数据)中大于所述频率阈值的频率成分。在一些实施例中,音频数据生成模块430可以通过分别使用第一权重、第二权重、第三权重和第四权重对第一音频数据的(或预处理后的第一音频数据)的低频部分和高频部分以及第二音频数据(或预处理后的第二音频数据)的低频部分和高频部分进行加权,以确定第三音频数据。
在一些实施例中,音频数据生成模块430可以至少部分地基于第一音频数据(或预处理后的第一音频数据)和/或第二音频数据(或预处理后的第二音频数据),确定对应于第一音频数据(或预处理后的第一音频数据)的权重和对应于第二音频数据(或预处理后的第二音频数据)的权重。音频数据生成模块430可以使用对应于第一音频数据(或预处理后的第一音频数据)的权重和对应于第二音频数据(或预处理后的第二音频数据)的权重对第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)进行加权以确定第三音频数据。
在一些实施例中,音频数据生成模块430可以基于第三音频数据确定表示用户语音的目标音频数据,其具有比第一音频数据和第二音频数据更高的保真度。在一些实施例中,音频数据生成模块430可以将第三音频数据指定为目标音频数据。在一些实施例中,音频数据生成模块430可以对第三音频数据执行后处理操作以获取目标音频数据。在一些实施例中,音频数据生成模块430可以对频率域中的第三音频数据执行逆傅里叶变换操作,以获得时域中的目标音频数据。在一些实施例中,音频数据生成模块430可以对第三音频数据执行降噪操作,以获得目标音频数据。在一些实施例中,音频数据生成模块430可以经由网络150将信号发送到客户终端(例如,终端130)、存储设备140和/或任何其他存储设备(未在音频信号生成系统100中示出)。该信号可以包括目标音频数据。该信号也可以被配置为使客户终端播放目标音频数据。
存储模块440可以被配置用于存储与音频信号生成系统100相关联的数据和/或指令。例如,存储模块440可以存储语音样本数据、机器学习模型、训练后的机器学习模型和/或构造后的滤波器、由骨传导麦克风112和/或气传导麦克风114采集的音频数据等。在一些实施例中,存储模块440可以与配置中的存储设备140相同。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。显然,对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。例如,可以省略存储模块440。又例如,音频数据生成模块430和存储模块440可以集成到一个模块中。
图4B是示出根据本申请的一些实施例的示例性音频数据生成模块的框图。如图4B所示,音频数据生成模块430可包括频率确定单元432、权重确定单元434和组合单元436。上述每个子模块可以是设计用于执行某些动作的硬件电路,例如,根据存储在一个或以上存储介质中的指令,和/或硬件电路和一个或以上存储介质的任何组合。
频率确定单元432可以被配置为至少部分基于骨导音频数据和/或气导音频数据确定一个或以上频率阈值。在一些实施例中,频率阈值可以是骨导音频数据和/或气导音频数据的频率点。在一些实施例中,频率阈值可以与骨导音频数据和/或气导音频数据的频率点不同。在一些实施例中,频率确定单元432可以基于与骨导音频数据相关联的频率响应曲线确定频率阈值。与骨导音频数据相关联的频率响应曲线可包括随频率变化而变化的频率响应值。在一些实施例中,频率确定单元432可以基于骨导音频数据相关联的频率响应曲线的频率响应值确定一个或以上频率阈值。在一些实施例中,频率确定单元432可以根据频率响应曲线的变化特性确定一个或以上频率阈值。在一些实施例中,频率确定单元432可以基于与重构的骨导音频数据相关联的频率响应曲线确定一个或以上频率阈值。在一些实施例中,频率确定单元432可以基于与气导音频数据的至少一部分相关联的噪声水平确定一个或以上频率阈值。在一些实施例中,噪声水平可以由气导音频数据的信噪比表示。信噪比越大,噪声水平可能越低。与气导音频数据相关的信噪比越大,频率阈值越大。
权重确定单元434可以被配置为根据一个或以上频率阈值将骨导音频数据和气导音频数据划分为多个片段。骨导音频数据的每个片段可以对应于气导音频数据的一个片段。如本文所使用的,气导音频数据的片段对应于骨导音频数据的片段可以指的是骨导音频数据和气导音频数据的两个片段由一个或两个相同的频率阈值定义。在一些实施例中,频率阈值的计数或数量可以是一个,权重确定单元434可以将骨导音频数据和气导音频数据划分为两个片段。
权重确定单元434也可以是配置用于确定骨导音频数据和气导音频数据的多个片段中的每个片段的权重。在一些实施例中,骨导音频数据的特定片段的权重和气导音频数据的对应的特定片段的权重满足一定的条件,使得骨导音频数据的特定片段的权重与气导音频数据的对应的特定片段的权重之和等于1。
组合单元436可以被配置用于基于权重对骨导音频数据和气导音频数据的多个片段的每个片段骨导音频数据和气导音频数据进行拼接、融合和/或组合,以生成拼接后、或融合后、或组合后的音频数据。在一些实施例中,组合单元436可以根据单个频率阈值确定骨导音频数据的低频部分和气导音频数据的高频部分。组合单元436可以基于一个或以上滤波器确定骨导音频数据的低频部分和气导音频数据的高频部分。在一些实施例中,组合单元436可以分别使用第一权重、第二权重、第三权重和第四权重对骨导音频数据的低频部分、骨导音频数据的高频部分、气导音频数据的低频部分,以及气导音频数据的高频部分进行加权,确定拼接后、融合后、或组合后的音频数据。在一些实施例中,组合单元436可以通过分别使用骨导音频数据的权重和气导音频数据的权重,通过加权以确定融合后或组合后的音频数据。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。显然,对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。例如,音频数据生成模块430还可以包括音频数据划分子模块(图4B中未示出)。音频数据划分子模块可以被配置为根据一个或以上频率阈值将每个骨导音频数据和气导音频数据划分为多个片段。又例如,权重确定单元434和组合单元436可以集成到一个模块中。
图5是根据本申请的一些实施例所示的用于生成音频信号的示例性过程的流程图。在一些实施例中,过程500可以实现为存储设备140、ROM 230或RAM 240或存储器390中存储的指令(例如,应用程序)。处理设备122、处理器220和/或CPU 340可以执行指令,并且当执行指令时,处理设备122、处理器220和/或CPU 340可以被配置用于执行处理500。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程500可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图5中示出并在下面描述的过程500的操作顺序是非限制性的。
在510中,处理设备122(例如,获取模块410)可以获取由骨传导传感器采集的第一音频数据。如本文所用,骨传导传感器指可以在用户(或使用者)说话时采集由用户骨组织(例如,颅骨)传导的振动信号的任何传感器(例如,骨传导麦克风112),如本申请中其他地方所述(例如,图1及其描述)。由骨传导传感器采集的振动信号可以通过骨传导传感器或其他设备(例如,放大器、模拟-数字转换器(ADC)等)转换成音频数据(例如,音频信号)。由骨传导传感器采集的音频数据(例如,第一音频数据)也可以被称为骨导音频数据。在一些实施例中,第一音频数据可以包括时域中的音频信号、频率域中的音频信号等。第一音频数据可包括模拟信号或数字信号。在一些实施例中,处理设备122可以通过网络150实时或周期性地从骨传导传感器(例如,骨传导麦克风112)、终端130、存储设备140或任何其他存储设备获取第一音频数据。
第一音频数据可以由具有不同频率和/或强度(即,幅度)的多个波(例如,正弦波、谐波等)叠加表示。如本文所使用,具有特定频率的波也可以被称为具有特定频率的频率成分。在一些实施例中,由骨传导传感器采集的第一音频数据中包括的频率成分可以在0Hz至20kHz、或20Hz至10kHz、或20Hz至4000Hz、或20Hz至3000Hz、或1000Hz至3500Hz、或1000Hz至3000Hz、或1500Hz至3000Hz等频率范围内。当用户说话时,第一音频数据可以由骨传导传感器采集和/或生成。第一音频数据可以表示用户说话(即用户的语音)的内容。例如,第一音频数据可以包括可以反映用户语音内容的声学特征和/或语义信息。第一音频数据的声学特征可包括与持续时间相关的特征、与能量相关的特征、与基频相关的特征、与频率谱相关的特征、与相位谱相关的特征等。与持续时间相关的特征也可以被称为持续时间特征。示例性持续时间特征可以包括语速、短时平均过零率等。与能量相关联的特征也可以被称为能量或幅度特征。示例性能量或幅度特征可包括短时平均能量、短时平均幅度、短时能量梯度、平均幅度变化率、短时最大幅度等。与基频相关联的特征也可以被称为基频特征。示例性基频特征可以包括基频、基频的音高、平均基频、最大基频、基频范围等。与频率谱相关联的示例性特征可以包括共振峰特征、线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)等。与相位谱相关联的示例性特征可以包括瞬时相位、初始相位等。
在一些实施例中,可以通过将骨传导传感器放置在用户身体的某个部位和/或使骨传导传感器与用户的皮肤接触来采集和/或生成第一音频数据。与骨传导传感器接触的使用者身体的部位包括但不限于前额、颈部(例如,喉咙)、乳突、耳朵周围的区域、耳朵内部区域、太阳穴、面部(例如,嘴周围的区域、下巴)、头顶等。例如,骨传导麦克风112可以放置在耳屏、耳廓、内耳道、外耳道等处和/或与耳屏、耳廓、内耳道、外耳道等接触。在一些实施例中,第一音频数据可以随着与骨传导传感器接触的使用者身体的部位不同而不同。例如,与骨传导传感器接触的使用者身体的部位不同可以导致第一音频数据的频率特征(例如,频率成分的幅度)、第一音频数据中包括的噪声等产生变化。例如,由位于颈部的骨传导传感器采集的第一音频数据的信号强度大于由位于耳屏的骨传导传感器采集的第一音频数据的信号强度。由位于耳屏处的骨传导传感器采集的第一音频数据的信号强度大于由位于耳道处的骨传导传感器采集的第一音频数据的信号强度。再如,由位于用户耳朵周围区域的第一骨传导传感器采集的骨导音频数据比具有相同的配置但位于用户头顶的第二骨传导传感器同时采集的骨导音频数据具有更多频率成分。在一些实施例中,第一音频数据可以由位于用户身体的某一部位的骨传导传感器向该部位施加在一定范围内(例如,0N至1N,或0N至0.8N等)的特定压力采集。例如,第一音频数据可以由位于用户身体耳屏处的骨传导传感器采集向该部位施加特定压力(例如,0牛顿,或0.2N,或0.4N,或0.8N等)采集。骨传导传感器施加在相同身体部位上的压力的不同可能使得骨传导传感器采集的第一音频数据的频率成分、声学特性(例如,频率成分的幅度)、第一音频数据中的噪声等发生变化。例如,当压力从0N增大到0.8N的时候,第一音频数据的信号强度先逐渐增大,后增大的趋势减缓,慢慢达到饱和。。关于骨传导传感器放置在不同身体部位对骨导音频数据的影响的更多描述可以在本申请的其他地方找到(例如,图12A及其描述)。关于骨传导传感器对用户身体部位施加的不同压力对骨导音频数据的影响的更多描述可以在本申请的其他地方找到(例如,图12B及其描述)。
在520中,处理设备122(例如,获取模块410)可以获取由气传导传感器采集的第二音频数据。如本文所使用,气传导传感器可以指能够在用户说话时采集通过气传导的振动信号的任何传感器(例如,气传导麦克风114),如本申请中其他地方所述(例如,图1及其描述)。由气传导传感器采集的振动信号可以由气传导传感器或其他设备(例如,放大器、模拟-数字转换器(ADC)等)转换为音频数据(例如,音频信号)。由气传导传感器采集的音频数据(例如,第二音频数据)也可以被称为气导音频数据。在一些实施例中,第二音频数据可以包括时域中的音频信号、频率域中的音频信号等。第二音频数据可包括模拟信号或数字信号。在一些实施例中,处理设备122可以通过网络150实时或周期性地从气传导传感器(例如,气传导麦克风114)、终端130、存储设备140或者任何其他存储设备获取第二音频数据。在一些实施例中,可以通过将气体传导传感器放置在距离用户嘴部一定距离(例如,0cm、1cm、2cm、5cm、10cm、20cm等)范围内来采集第二音频数据。在一些实施例中,气传导传感器与用户嘴部之间距离的不同可能会导致所采集的第二音频数据(例如,第二音频数据的平均幅度)的不同。
第二音频数据可以由具有不同频率和/或强度(即,幅度)的多个波(例如,正弦波、谐波等)的叠加表示。在一些实施例中,由气传导传感器采集的第二音频数据中包括的频率成分可以在0Hz至20kHz、或20Hz至20kHz、或1000Hz至10kHz等频率范围内。当用户说话时,气传导传感器可以采集和/或生成第二音频数据。第二音频数据可以表示用户说话(即用户的语音)的内容。例如,第二音频数据包括可以反映用户语音内容的声学特征和/或语义信息。第二音频数据的声学特征可以包括如操作510中所述的与持续时间相关联的特征、与能量相关联的特征、与基频相关联的特征、与频率谱相关联的特征、与相位谱等相关的特征。
在一些实施例中,第一音频数据和第二音频数据可以通过不同频率成分表示同一用户的相同语音。代表同一用户的相同语音的第一音频数据和第二音频数据可以指的是当用户说话时,分别由骨传导传感器和气传导传感器同时采集的第一音频数据和第二音频数据。由骨传导传感器采集的第一音频数据可以包括第一频率成分。第二音频数据可以包括第二频率成分。在一些实施例中,第二频率成分包括第一频率成分的至少一部分。第二音频数据中包括的语义信息可以与第一音频数据中包括的语义信息相同或不同。第二音频数据的声学特征与第一音频数据的声学特征相同或不同。例如,第一音频数据的某个频率成分的幅度可以与第二音频数据的同一频率成分的幅度不同。又例如,第一音频数据中小于某个频率点(例如,2000Hz)或在某个频率范围(例如,20Hz至2000Hz)内的频率成分可能多于第二音频数据中小于该频率点(例如,2000Hz)或在该频率范围(例如,20Hz至2000Hz)内的频率成分。第一音频数据中大于某一频率点(例如,3000Hz)或在某个频率范围(例如,3000Hz至20kHz)内的频率成分可能少于第二音频数据中大于该频率点(例如,3000Hz)或在该频率范围(例如,3000Hz至20kHz)内的频率成分。如本文所用,第一音频数据中小于某频率点(例如,2000Hz)或在某频率范围(例如,20Hz至2000Hz)内的频率成分多于第二音频数据中小于该频率点(例如,2000Hz)或在该频率范围(例如,20Hz至2000Hz)的频率成分可以指的是第一音频数据中小于该频率点(例如,2000Hz)或在该频率范围(例如,20Hz至2000Hz)内的频率成分的计数或数量大于第二音频数据中小于该频率点(例如,2000Hz)或在该频率范围(例如,20Hz至2000Hz)内的频率成分的计数或数量。
在530中,处理设备122(例如,预处理模块420)可以预处理第一音频数据或第二音频数据中的至少一个。经过预处理的第一音频数据和第二音频数据也可以分别被称为预处理后的第一音频数据和预处理后的第二音频数据。示例性预处理操作可以包括域变换操作、信号校准操作、音频重构操作、语音增强操作等。
可以执行域变换操作以将第一音频数据和/或第二音频数据从时域转换到频域或者从频域转换到时域。在一些实施例中,处理设备122可以通过执行傅立叶变换或逆傅立叶变换来执行域变换操作。在一些实施例中,为执行域变换操作,处理设备122可以对第一音频数据和/或第二音频数据执行分帧操作、加窗操作等。例如,第一音频数据可以分为一个或以上语音帧。每个语音帧可以是包括持续时间段(例如,5ms、10ms、15ms、20ms、25ms等)内的音频数据,每帧的音频数据在该持续时间段内可以被认为是近似稳定的。可以使用波分段函数对语音帧中的执行加窗操作以获取处理后的语音帧。如这里所使用的,波分割函数可以称为窗函数。示例性窗函数可包括Hanning窗、Hamming、Blackman-Harris窗等。最后,可以使用傅里叶变换操作基于处理后的语音帧将第一音频数据从时域转换到频率域。
信号校准操作可以用于统一第一音频数据和第二音频数据的数量级(例如,幅度)来消除由,例如骨传导传感器和气传导传感器之间的灵敏度差异引起的第一音频数据和/或第二音频数据的数量级之间的差异。在一些实施例中,处理设备122可以对第一音频数据和/或第二音频数据执行归一化操作以校准第一音频数据和/或第二音频数据,获得归一化的第一音频数据和/或归一化的第二音频数据。例如,处理设备122可以根据等式(1)确定归一化的第一音频数据和/或归一化的第二音频数据,如下:
Figure BDA0003543861570000251
其中,Snormalized指归一化的第一音频数据(或归一化的第二音频数据),Sinitial是指第一音频数据(或第二音频数据),|Smax|可以表示第一音频数据(或第二音频数据)的幅度绝对值中的最大值。
语音增强操作可以用于减少音频数据中(例如,第一音频数据和/或第二音频数据)的噪声或其他无关和不期望的信息。对第一音频数据(或归一化化的第一音频数据)和/或第二音频数据(或归一化的第二音频数据)执行的语音增强操作可以使用包括基于谱减法的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波器的语音增强算法、基于信号子空间的语音增强算法、基于听觉掩蔽效应的语音增强算法、基于独立成分分析的语音增强算法、神经网络技术等,或其组合。在一些实施例中,语音增强操作可以包括降噪操作。在一些实施例中,处理设备122可以对第二音频数据(或归一化的第二音频数据)执行降噪操作以获得降噪后的第二音频数据。在一些实施例中,归一化的第二音频数据和/或降噪的第二音频数据也可以被称为预处理后的第二音频数据。在一些实施例中,降噪操作可以包括使用维纳滤波器、谱减法、自适应算法、最小均方误差(MMSE)估计算法等,或其任何组合。
音频重构操作可以用于加强或增加初始骨导音频数据中(例如,第一音频数据或归一化的第一音频数据)大于某个频率点(例如,2000Hz、3000Hz)或在频率范围(例如,2000Hz至20kHz、3000Hz至20kHz)内骨导音频数据的频率成分以使得重构后的骨导音频数据相对于初始骨导音频数据(例如,第一音频数据或归一化的第一音频数据)具有改善的保真度。重构的骨导音频数据可以与没有或具有少量噪声的理想气导音频数据相似、接近或相同,并且重构骨导音频数据与初始骨导音频数据代表同一用户的相同语音,所述理想气导音频数据由气传导传感器与骨导传感器采集初始骨导音频数据的同一时间采集。重构的骨导音频数据可以等效于气导音频数据,也可以被称为对应于初始骨导音频数据的等效气导音频数据。如本文所使用的,与理想气导音频数据相似、接近或相同的重构的骨导音频数据可以指重构的骨导音频数据与理想气导音频数据之间的相似度可以大于某一阈值(例如,90%、80%、70%等)。关于重构的骨导音频数据、初始骨导音频数据和理想气导音频数据的更多描述可以在本申请的其他地方找到(例如,图11及其描述)。
在一些实施例中,处理设备122可以使用训练后的机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等,或其任何组合对第一音频数据进行重构以生成重构的第一音频数据。在一些实施例中,可以使用训练后的机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等其中一种方法以生成重构的第一音频数据。在一些实施例中,可以使用训练后的机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等中的至少两种方法生成重构的第一音频数据。例如,处理设备122可以通过使用训练后的机器学习模型重构第一音频数据来生成中间第一音频数据。处理设备122可以通过使用构造后的滤波器、谐波修正模型、稀疏矩阵技术等其中一种方法重构中间第一音频数据来生成重构的第一音频数据。又例如,处理设备122可以通过使用机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等其中一种方法重构第一音频数据以生成中间第一音频数据。处理设备122可以通过使用机器学习模型、构造后的滤波器器、谐波修正模型、稀疏矩阵技术等中的另一种方法重构第一音频数据以生成另一中间第一音频数据。处理设备122可以通过对中间第一音频数据和另一中间第一音频数据求平均以生成重构的第一音频数据。又例如,处理设备122可以通过使用机器学习模型、构造后的滤波器、谐波修正模型、稀疏矩阵技术等中两种以上方法重构第一音频数据以生成多个中间第一音频数据,处理设备122可以通过对多个中间第一音频数据求平均以生成重构的第一音频数据
在一些实施例中,处理设备122可以使用训练后的机器学习模型重构第一音频数据(或归一化的第一音频数据)以获得重构的第一音频数据。重构的第一音频数据中高于某个频率点(例如,2000Hz、3000Hz)或在某个频率范围(例如,2000Hz至20kHz、3000Hz至20kHz等)内的频率成分相对于第一音频数据中高于该频率点(例如,2000Hz、3000Hz)或在该频率范围(例如,2000Hz至20kHz、3000Hz至20kHz等)内的频率成分增加。训练后的机器学习模型可以基于深度学习模型、传统机器学习模型等或其任何组合来构造。示例性深度学习模型可以包括卷积神经网络(CNN)模型、递归神经网络(RNN)模型、长短期记忆网络(LSTM)模型等。示例性的传统机器学习模型可以包括隐马尔可夫模型(HMM)、多层感知器(MLP)模型等。
在一些实施例中,可以通过使用多组训练数据训练初级机器学习模型以确定训练后的机器学习模型。多组训练数据中的每组训练数据可包括骨导音频数据和气导音频数据。一组训练数据也可以称为语音样本。在初级机器学习模型的训练过程中,语音样本中的骨导音频数据可以是初级机器学习模型的输入,语音样本中与骨导音频数据对应的气导音频数据可以是初级机器学习模型的期望输出。语音样本中的骨导音频数据和气导音频数据可以表示相同的语音,并且由骨传导传感器和气传导传感器在无噪声环境中分别同时采集。如这里所使用的,无噪点环境可以指环境中的一个或以上噪声评估参数(例如,噪声标准曲线、统计噪声水平等)满足一定的条件,例如小于某一阈值。经训练的机器学习模型可以被配置为提供骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间的对应关系。经训练的机器学习模型可基于对应关系重构骨导音频数据。在一些实施例中,多组训练数据中的骨导音频数据可以由骨传导传感器放置在用户(例如,测试者)身体的相同部位(例如,耳朵周围的区域)采集。在一些实施例中,采集用于训练机器学习模型的骨导音频数据的骨传导传感器所处身体的部位与采集待使用训练后的机器学习模型重构的骨导音频数据(例如,第一音频数据)的骨传导传感器所处的身体的部位一致和/或相同。例如,采集用于训练机器学习模型的每组训练数据中的骨导音频数据的骨传导传感器所处身体的部位可以与采集第一音频数据的骨传导传感器所处的身体的部位一致和/或相同骨导音频数据。再例如,如果采集第一音频数据的骨传导传感器所处的身体的部位是颈部,采集用于训练机器学习模型的骨导音频数据的骨传导传感器所处身体的部位也是颈部。用于采集多组训练数据的骨传导传感器放置在用户(例如,测试者)的身体部位会影响骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间的对应关系。因此,使用经训练的机器学习模型基于对应关系重构骨导音频数据会影响重构的骨导音频数据。由位于使用者身体的不同部位的骨传导传感器采集的多组训练数据可以生成骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间不同的对应关系。例如,相同配置的多个骨传导传感器可以位于身体的不同部位,例如乳突、太阳穴、头顶、外耳道等。多个骨传导传感器可以同时采集用户说话时生成的骨导音频数据。可以基于由多个骨传导传感器采集的骨导音频数据形成多个训练集。多个训练集中的每个训练集可包括由多个骨传导传感器中的其中一个骨传导传感器和气传导传感器采集的多组训练数据。多组训练数据中的每组训练数据可包括骨导音频数据和表示相同语音的气导音频数据。多个训练集中的每个训练集可用于训练机器学习模型以获得训练后的机器学习模型。可以基于多个训练集获得多个训练后的机器学习模型。多个训练后的机器学习模型可以提供特定骨导音频数据和重构的骨导音频数据之间的不同对应关系。例如,可以分别将相同的骨导音频数据输入到多个训练后的机器学习模型中以生成不同的重构的骨导音频数据。在一些实施例中,不同配置的骨传导传感器采集的骨导音频数据(例如,频率响应曲线、信号强度、声学特征等)可以是不同的。因此,采集用于训练机器学习模型的骨导音频数据的骨传导传感器可以与采集待使用经训练的机器学习模型重构的骨导音频数据(例如,第一音频数据)的骨传导传感器在配置上是相同。在一些实施例中,向使用者身体的某一部位施加的压力不同,采集的骨导音频数据(例如,频率响应曲线)不同。因此,采集用于训练机器学习模型的骨导音频数据的压力可以与用于采集使用经训练的机器学习模型重构的骨导音频数据(例如,第一音频数据)的压力相同。关于确定训练后的机器学习模型和/或重构骨导音频数据的更多描述可以参考图6及其描述骨导音频数据。
在一些实施例中,处理设备122(例如,预处理模块420)可以使用构造后的滤波器重构第一音频数据(或归一化的第一音频数据)以获得重构的骨导音频数据。所述构造后的滤波器可以被配置用于提供特定气导音频数据与对应于特定气导音频数据的特定骨导音频数据之间的关系。如这里所使用的,相互对应的骨导音频数据和气导音频数据可以指骨导音频数据和气导音频数据表示同一用户的相同语音。特定的气导音频数据也可以被称为对应于特定的骨导音频数据的等效气导音频数据或者重构的骨导音频数据。特定气导音频数据中高于某频率点(例如,2000Hz、3000Hz)或在某频率范围(例如,2000Hz至20kHz、3000Hz至20kHz等)内的频率成分多于特定骨导音频数据中高于该频率点(例如,2000Hz、3000Hz)或在该频率范围(例如,2000Hz至20kHz、3000Hz至20kHz等)内的骨导音频数据频率成分。处理设备122可以基于该关系将特定的骨导音频数据转换为特定的气导音频数据。例如,处理设备122可以使用构造后的滤波器将第一音频数据转换为重构的第一音频数据以获取重构的第一音频数据。在一些实施例中,语音样本中的骨导音频数据可以表示为d(n),语音样本中的相应的气导音频数据可以表示为s(n)。骨导音频数据d(n)以及相应的气导音频数据s(n)可以基于初始声音激励信号e(n)分别通过骨传导系统和气传导系统确定,骨传导系统和气传导系统可分别等效于滤波器B和滤波器V。然后构造后的滤波器可以等效于滤波器H。滤波器H可以根据如下所示的等式(2)确定:
Figure BDA0003543861570000291
在一些实施例中,可以使用,例如,长时谱技术以确定所构造后的滤波器。例如,处理设备122可以根据如下所示的等式(3)确定构造后的滤波器:
Figure BDA0003543861570000292
其中,
Figure BDA0003543861570000293
指的是频率域中构造后的滤波器,
Figure BDA0003543861570000294
是指对应于气导音频数据s(n)的长时谱表达式,
Figure BDA0003543861570000295
是指对应于骨导音频数据d(n)的长时谱表达式。在一些实施例中,处理设备122可以获取一组或多组的骨导音频数据和气导音频数据(也可称语音样本),每组中的骨导音频数据和气导音频数据分别由骨传导传感器和气传导传感器当操作员(例如,测试员)在无噪声环境中说话时采集。处理设备122可以根据等式(3)基于一组或多组的骨导音频数据和气导音频数据确定构造后的滤波器。例如,处理设备122可以根据等式(3)基于每组中相互对应的骨导音频数据和气导音频数据构造候选滤波器。处理设备122可以基于候选滤波器确定构造后的滤波器。在一些实施例中,处理设备122可以对初始滤波器H(f)执行逆傅立叶变换(IFT)(例如,快速IFT)操作,以在时域中获得构造后的滤波器。
在一些实施例中,采集用于确定构造后的滤波器的骨导音频数据的骨传导传感器所处的身体部位与采集待使用构造后的滤波器重构的骨导音频数据的骨传导传感器所处的身体的部位相同。例如,采集用于确定构造后的滤波器的骨导音频数据的骨传导传感器所处身体的部位可以与采集第一音频数据的骨传导传感器所处的身体的部位相同。再例如,如果采集第一音频数据的骨传导传感器所处的身体的部位是颈部,采集用于确定构造的滤波器的骨导音频数据的骨传导传感器所处身体的部位也是颈部。由位于身体的不同部位的骨传导传感器采集的多组训练数据可以生成不同的过滤器。例如,可以获取在用户说话时通过由位于使用者身体第一部位的骨传导传感器和气导传感器分别采集第一组的骨导音频数据与对应的气导音频数据。可以获取在用户说话时通过由位于使用者身体第二部位的骨传导传感器和气导传感器分别采集的第二组的骨导音频数据和对应的气导音频数据。可以基于第一组的骨导音频数据和对应的气导音频数据确定第一滤波器。可以基于第二组的骨导音频数据和对应的气导音频数据确定第二滤波器。第一滤波器和第二滤波器不同。即第一滤波器和第二滤波器提供的骨导音频数据和气导音频数据之间对应关系不同。
在一些实施例中,处理设备122(例如,预处理模块420)可以使用谐波修正模型重构第一音频数据(或归一化的第一音频数据)以获得重构的第一音频数据。谐波修正模型可以被配置用于提供特定气导音频数据的幅度谱与对应于特定气导音频数据的特定骨导音频数据的幅度谱之间的关系。如这里所使用的,特定的气导音频数据也可以被称为对应于特定的骨导音频数据的等效气导音频数据或重构的骨导音频数据。特定气导音频数据的幅度谱也可以被称为特定骨导音频数据的校正后幅度谱。处理设备122可以确定频率域中的第一音频数据(或归一化的第一音频数据)的幅度谱和相位谱。处理设备122可以使用谐波修正模型来校正第一音频数据(或归一化的第一音频数据)的幅度谱以获得第一音频数据(或归一化的第一音频数据)的校正后的幅度谱。然后,处理设备122可以基于校正后的幅度谱和第一音频数据(或归一化的第一音频数据)的相位谱确定重构的第一音频数据。关于使用谐波修正模型重构第一音频数据的更多描述可以参考本申请的其他地方的描述(例如,图7及其描述)。
在一些实施例中,处理设备122(例如,预处理模块420)可以使用稀疏矩阵技术重构第一音频数据(或标准化的第一音频数据)以获得重构的第一音频数据。例如,处理设备122可以获取第一变换关系,其被配置用于将初始骨导音频数据(例如,第一音频数据)的字典矩阵转换为与初始骨导音频数据相对应的重构的骨导音频数据(例如,重构的第一音频数据)的字典矩阵。处理设备122可以获取第二变换关系,其被配置用于将初始骨导音频数据的稀疏码矩阵转换为与初始骨导音频数据相对应的重构的骨导音频数据的稀疏码矩阵。处理设备122可以使用第一变换关系基于第一音频数据的字典矩阵确定重构的第一音频数据的字典矩阵。处理设备122可以使用第二变换关系基于第一音频数据的稀疏码矩阵确定重构的第一音频数据的稀疏码矩阵。处理设备122可以基于重构的第一音频数据的所确定的字典矩阵和稀疏码矩阵确定重构的第一音频数据。在一些实施例中,第一变换关系和/或第二变换关系可以是音频信号生成系统100的默认设置。在一些实施例中,处理设备122可以基于一组或多组的相互对应的骨导音频数据组和气导音频数据确定第一变换关系和/或第二变换关系。关于使用稀疏矩阵技术重构第一音频数据的更多描述可以参考本申请的其他地方的描述(例如,图8及其描述)。
在540中,处理设备122(例如,音频数据生成模块430)可以基于第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)生成第三音频数据。第三音频数据中高于某个频率点(或阈值)的频率成分相对于第一音频数据(或预处理后的第一音频数据)中高于该频率点(或阈值)的频率成分增加。换句话说,第三音频数据中高于该频率点(或阈值)的频率成分可以多于第一音频数据(或预处理后的第一音频数据)中高于该频率点(或阈值)的频率成分。在一些实施例中,与第三音频数据相关联的噪声水平可以低于与第二音频数据(或预处理后的第二音频数据)相关联的噪声水平。如本文所用,第三音频数据中高于该频率点(或阈值)的频率成分相对于第一音频数据(或预处理后的第一音频数据)中高于该频率点的频率成分的增加可以指第三音频数据中频率高于该频率点的波(例如,正弦波或谐波)的计数或数量大于第一音频数据中频率高于该频率点的波(例如,正弦波或谐波)的计数或数量。在一些实施例中,频率点可以是20Hz至20kHz范围内的常数。例如,频率点可以是2000Hz、3000Hz、4000Hz、5000Hz、6000Hz等。在一些实施例中,频率点可以是第三音频数据和/或第一音频数据中的频率成分的频率值。
在一些实施例中,处理设备122可以基于第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)根据一个或以上频率阈值生成第三音频数据。例如,处理设备122可以至少部分地基于第一音频数据(或预处理后的第一音频数据)和/或第二音频数据(或预处理后的第二音频数据)确定一个或以上频率阈值。处理设备122可以根据一个或以上频率阈值将第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)分别分成多个片段。处理设备122可以分别确定第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)的多个片段中每个片段的权重。然后处理设备122可以基于第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)的多个片段中每个片段的权重确定第三音频数据。
在一些实施例中,处理设备122可以确定单一频率阈值。处理设备122可以根据单一频率阈值在频率域中拼接第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)以生成第三音频数据。例如,处理设备122可以使用第一滤波器确定第一音频数据(或预处理后的第一音频数据)中包括低于单一频率阈值的频率成分的低频部分。处理设备122可以使用第二滤波器确定第二音频数据(或预处理后的第二音频数据)中包括高于单一频率阈值的频率成分的高频部分。处理设备122可以拼接和/或组合第一音频数据(或预处理后的第一音频数据)的低频部分和第二音频数据(或预处理后的第二音频数据)的高频部分以生成第三音频数据。在一些实施例中,第一滤波器可以是以单一频率阈值作为截止频率的低通滤波器,其可以允许第一音频数据中低于单一频率阈值的频率成分通过。第二滤波器可以是以单一频率阈值作为截止频率的高通滤波器,其可以允许第二音频数据中高于单一频率阈值的频率成分通过。在一些实施例中,处理设备122可以至少部分地基于第一音频数据(或预处理后的第一音频数据)和/或第二音频数据(或预处理后的第二音频数据)确定单一频率阈值。关于确定单一频率阈值的更多描述可以参考图9及其描述中找到。
在一些实施例中,处理设备122可以至少部分地基于单一频率阈值分别确定第一音频数据(或预处理后的第一音频数据)的低频部分和第一音频数据(或预处理后的第一音频数据)的高频部分的第一权重和第二权重。处理设备122可以至少部分地基于单一频率阈值分别确定第二音频数据(或预处理后的第二音频数据)的低频部分和第二音频数据的高频部分(或预处理后的第二音频数据)的第三权重和第四权重。在一些实施例中,处理设备122可以分别使用第一权重、第二权重、第三权重和第四权重对第一音频数据的低频部分(或预处理后的第一音频数据)、第一音频数据(或预处理后的第一音频数据)的高频部分、第二音频数据(或预处理后的第二音频数据)的低频部分、第二音频数据(或预处理后的第二音频数据)的高频部分进行加权以确定第三音频数据。关于确定第三音频数据(或拼接的音频数据)的更多描述可以在图9其描述中找到。
在一些实施例中,处理设备122可以至少部分地基于第一音频数据(或预处理后的第一音频数据)和/或第二音频数据(或预处理后的第二音频数据)分别确定对应于第一音频数据(或预处理后的第一音频数据)和对应于第二音频数据(或预处理后的第二音频数据)的权重。处理设备122可以使用对应于第一音频数据(或预处理后的第一音频数据)的权重和对应于第二音频数据(或预处理后的第二音频数据)的权重通过对第一音频数据(或预处理后的第一音频数据)和第二音频数据(或预处理后的第二音频数据)进行加权以确定第三音频数据。关于确定第三音频数据的更多描述可以在本申请的其他地方找到(例如,图10及其描述)。
在550中,处理设备122(例如,音频数据生成模块430)可以基于第三音频数据确定表示用户语音的目标音频数据,目标音频数据具有比第一音频数据和第二音频数据更高的保真度。目标音频数据可以表示第一音频数据和第二音频数据所代表的用户的语音。如本文所用,保真度可以用于表示输出音频数据(例如,目标音频数据、第一音频数据、第二音频数据)与原始输入音频数据(例如,用户的语音)之间的相似度。保真度可表示输出音频数据(例如,目标音频数据、第一音频数据、第二音频数据)的可懂度。
在一些实施例中,处理设备122可以将第三音频数据指定为目标音频数据。在一些实施例中,处理设备122可以对第三音频数据执行后处理操作以获取目标音频数据。在一些实施例中,后处理操作可以包括降噪操作、域变换操作(例如,傅立叶变换(FT)操作)等,或其组合。在一些实施例中,对第三音频数据执行的降噪操作可以包括使用维纳滤波器、谱减法、自适应算法、最小均方误差(MMSE)估计算法等,或其任何组合。在一些实施例中,对第三音频数据执行的降噪操作可以与对第二音频数据执行的降噪操作相同或不同。例如,对第二音频数据执行的降噪操作和对第三音频数据执行的降噪操作都可以使用谱减法。又例如,对第二音频数据执行的降噪操作可以使用维纳滤波器,并且对第三音频数据执行的降噪操作可以使用谱减法。在一些实施例中,处理设备122可以对频率域中的第三音频数据执行逆傅里叶操作以获得时域中的目标音频数据。
在一些实施例中,处理设备122可以经由网络150将信号发送到客户终端(例如,终端130)、存储设备140和/或任何其他存储设备(未在音频信号生成系统100中示出)。该信号可以包括目标音频数据。该信号也可以被配置为指示所述客户终端播放目标音频数据。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。例如,可以省略操作550。又例如,操作510和520可以集成到单个操作中。
图6是根据本申请的一些实施例所示的使用训练后的机器学习模型重构骨导音频数据的示例性过程的流程图。在一些实施例中,过程600可以实现为存储设备140、ROM 230、RAM 240或存储器390中存储的指令(例如,应用程序)。处理设备122、处理器220和/或CPU340可以执行指令,并且当执行指令时,处理设备122、处理器220和/或CPU 340可以被配置用于执行处理600。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程600可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图6中示出并在下面描述的过程600的操作的顺序是非限制性的。在一些实施例中,可以执行过程600的一个或以上操作以实现如图5所描述的操作530的至少一部分。
在610中,处理设备122(例如,获取模块410)可以获取骨导音频数据。在一些实施例中,骨导音频数据可以是当用户说话时由骨传导传感器采集的原始音频数据(例如,第一音频数据)(例如,图1及其描述),如本申请中其他地方所述。例如,用户的语音可以由骨传导传感器(例如,骨传导麦克风112)采集以生成电信号(例如,模拟信号或数字信号)(即骨导音频数据)。骨传导传感器可以经由网络150将电信号传输到服务器120、终端130和/或存储设备140。在一些实施例中,骨导音频数据包括可以反映用户语音内容的声学特征和/或语义信息。示例性声学特性可包括与持续时间相关联的特征、与能量相关联的特征、与基频率相关联的特征、与频率谱相关联的特征、与相位谱相关联的特征等,如本申请中其他地方所述(例如,图5及其描述)。
在620中,处理设备122(例如,获取模块410)可以获得训练后的机器学习模型。可以通过使用多组训练数据训练初级机器学习模型来提供训练后的机器学习模型。在一些实施例中,训练后的机器学习模型可以用于处理特定的骨导音频数据以获取经处理的骨导音频数据。处理后的骨导音频数据中也可成为重构的骨导音频数据。处理后的骨导音频数据中高于某一频率阈值(例如,1000Hz、2000Hz、3000Hz、4000Hz等)的骨导音频数据频率成分相对于特定骨导音频数据中高于该频率阈值或频率点(例如,1000Hz、2000Hz、3000Hz、4000Hz等)骨导音频数据的频率成分会增加。经处理的骨导音频数据可以与没有或具有少量噪声的理想气导音频数据相似或相同,并且经处理的骨导音频数据与未经处理的特定骨导音频数据代表同一用户的相同语音,所述理想气导音频数据由气传导传感器在与骨导传感器采集特定骨导音频数据的同一时间采集。如本文所用,经处理的骨导音频数据与没有或具有少量噪声的理想气导音频数据相似或相同可以指经处理的骨导音频数据的声学特征与理想气导音频数据的声学特征之间的相似度大于某一阈值(例如,0.9、0.8、0.7等)。例如,在无噪声环境中,当用户讲话时,分别通过骨传导麦克风112和气传导麦克风114同时采集骨导音频数据和气导音频数据。由训练后的机器学习模型处理骨导音频数据生成经处理的骨导音频数据,经处理的骨导音频数据与相应的气传导麦克风114采集的气导音频数据具有相同或相似的声学特征。在一些实施例中,处理设备122可以从终端130、存储设备140或任何其他存储设备获得训练后的机器学习模型。
在一些实施例中,初级机器学习模型可以基于深度学习模型、传统机器学习模型等或其任何组合来构造。深度学习模型可以包括卷积神经网络(CNN)模型、递归神经网络(RNN)模型、长短期记忆网络(LSTM)模型等,或其任何组合。传统的机器学习模型可以包括隐马尔可夫模型(HMM)、多层感知器(MLP)模型等,或其任何组合。在一些实施例中,初级机器学习模型可以包括多个层,例如,输入层、多个隐藏层和输出层。多个隐藏层可以包括一个或以上卷积层、一个或以上池化层、一个或以上批归一化层、一个或以上激活层、一个或以上完全连接层、损失函数层等。每层可以包括多个节点。在一些实施例中,初级机器学习模型可以由至少两个结构参数和至少两个学习参数(或者训练参数)来定义。可以通过使用至少两组训练数据训练初级机器学习模型,改变学习参数而结构参数。在训练初级机器学习模型之前,用户可以设置和/或调整结构参数。机器学习模型的示例性结构参数可以包括层内核的大小、层的总数(或数量)、每层中节点的数量(或数量)、学习率、批尺寸、步长等。例如,如果初级机器学习模型包括长短期记忆模型,则长短期记忆模型可以包括具有2个节点的一个输入层、四个隐藏层,以及具有2个节点的一个输出层,每个隐藏层包括30个节点。长短期记忆模型的时间移动步长可以是65,学习速率可以是0.003。机器学习模型的示例性学习参数可以包括两个连接节点之间的连接权重、与节点有关的偏置矢量等。两个连接节点之间的连接权重可以被配置为表示节点的输出值的作为另一个连接节点的输入值的比重。与节点有关的偏置矢量可以被配置用于控制偏离原点的节点的输出值。
在一些实施例中,可以基于机器学习模型训练算法通过使用多组训练数据训练初级机器学习模型以确定训练后的机器学习模型。在一些实施例中,多组训练数据中的一个或以上组训练数据可以在无噪声环境中获取,例如,在消音室中。一组训练数据可以包括特定的骨导音频数据和相应的特定气导音频数据。一组训练数据中的特定骨导音频数据和相应的特定气导音频数据可以同时通过骨传导传感器(例如,骨传导传声器112)和气传导传感器(例如,气传导传声器114)从特定用户获得。在一些实施例中,多组训练数据中的至少部分组中的每组训练数据可以包括特定骨导音频数据和对应的重构的骨导音频数据,重构的骨导音频数据可以通过使用如本申请中其他地方所述的一个或以上重构技术重构特定骨导音频数据而生成。示例性机器学习模型训练算法可包括梯度下降算法、牛顿算法、拟牛顿算法、列文伯格-马夸尔特(Levenberg-Marquardt)算法、共轭梯度算法等,或其组合。经训练的机器学习模型可以被配置为提供骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间的对应关系。经训练的机器学习模型可基于对应关系重构骨导音频数据。在一些实施例中,多组训练数据中的骨导音频数据可以由骨传导传感器放置在用户(例如,测试者)身体的相同部位(例如,耳朵周围的区域)采集。在一些实施例中,采集用于训练机器学习模型的骨导音频数据的骨传导传感器所处身体的部位可以与采集待使用训练后的机器学习模型重构的骨传导传感器数据(例如,第一音频数据)的骨传导传感器所处的身体的部位相同。例如,采集用于训练机器学习模型的每组训练数据中的骨导音频数据的骨传导传感器所处身体的部位可以与采集第一音频数据的骨传导传感器所处的身体的部位相同。再例如,如果采集第一音频数据的骨传导传感器所处的身体的部位是颈部,采集用于训练机器学习模型的骨导音频数据的骨传导传感器所处身体的部位也是颈部。
用于采集多组训练数据的骨传导传感器放置在用户(例如,测试者)的身体部位不同影响骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间的对应关系。因此,使用经训练的机器学习模型重构骨导音频数据会影响基于对应关系生成的重构的骨导音频数据。由位于使用者身体的不同部位的骨传导传感器采集的多组训练数据可以生成骨导音频数据(例如,第一音频数据)和重构的骨导音频数据(例如,等效气导音频数据)之间不同的对应关系。例如,相同配置的多个骨传导传感器可以位于身体的不同部位,例如乳突、太阳穴、头顶、外耳道等。多个骨传导传感器可以同时采集用户说话时生成的骨导音频数据。可以基于由多个骨传导传感器采集的骨导音频数据形成多个训练集。多个训练集中的每个训练集可包括由多个骨传导传感器中的其中一个骨传导传感器和气传导传感器采集的多组训练数据。多组训练数据中的每组训练数据可包括骨导音频数据和表示相同语音的气导音频数据。多个训练集中的每个训练集可用于训练机器学习模型以获得训练后的机器学习模型。可以基于多个训练集获得多个训练后的机器学习模型。多个训练后的机器学习模型可以提供特定骨导音频数据和重构的骨导音频数据之间的不同对应关系。例如,可以分别将相同的骨导音频数据输入到多个训练后的机器学习模型中以生成不同的重构的骨导音频数据。在一些实施例中,不同配置的骨传导传感器采集的骨导音频数据(例如,频率响应曲线、信号强度、声学特征等)可以是不同的。因此,用于采集训练机器学习模型骨导音频数据的骨传导传感器可以与用于采集待使用经训练的机器学习模型重构的骨导音频数据(例如,第一音频数据)的骨传导传感器在配置上是相同。在一些实施例中,骨传导传感器向使用者身体的某一部位施加一定范围内(例如0N至1N,或0N至0.8N)的压力不同会使得采集的骨导音频数据(例如,频率响应曲线)不同。因此,采集用于训练机器学习模型的骨导音频数据的压力可以与采集待使用经训练的机器学习模型的重构的骨导音频数据(例如,第一音频数据)的压力相同。
在一些实施例中,训练后的机器学习模型可以通过执行至少两次迭代来获得,以更新初级机器学习模型的一个或以上学习参数。对于至少两次迭代中的每次迭代,可以将特定的一组训练数据输入到初级机器学习模型中。例如,特定训练数据组的特定骨导音频数据可以输入到初级机器学习模型的输入层中,并且,特定训练数据组的特定气导音频数据可以输入到初级机器学习模型的输出层,作为初级机器学习模型对应于特定骨导音频数据(即输入)的期望输出。初级机器学习模型可以提取特定训练数据组中的特定骨导音频数据和特定气导音频数据的一个或以上声学特征(例如,持续时间特征、振幅特征、基频特征等)。基于提取的特征,初级机器学习模型可以确定对应于特定骨导音频数据(即输入)的预测输出。然后,基于代价函数将与特定骨导音频数据相对应的预测输出与输出层的期望输出(即输入的特定气导音频数据)进行比较。初级机器学习模型的代价函数可以被配置用于评估初级机器学习模型的估计值(例如,预测输出)与实际值(例如,期望输出或输入的特定气导音频数据)之间的差异。如果代价函数的值超过当前迭代中的阈值,可以调整和更新初级机器学习模型的学习参数,以使代价函数的值(即,预测输出和输入的特定气导音频数据之间的差值)小于阈值。因此,在下一次迭代中,可以将另一组训练数据输入到初级机器学习模型中如上所述训练初级机器学习模型。然后,可以执行至少两个迭代以更新初级机器学习模型的学习参数,直到满足终止条件。终止条件可以指示初级机器学习模型是否被充分训练。例如,如果与初级机器学习模型相关联的代价函数的值最小或小于阈值(例如,常数),则可以满足终止条件。又例如,如果代价函数的值收敛,则可以满足终止条件。如果在两个或以上连续迭代中代价函数的值的变化小于阈值(例如,常数),则可以认为代价函数已收敛。作为又一示例,当在训练过程中执行指定次数的迭代时,可以满足终止条件。可以基于更新的学习参数确定训练后的机器学习模型。在一些实施例中,可以将训练后的机器学习模型发送到存储设备140/存储模块440或任何其他存储设备用于存储。
在630中,处理设备122(例如,预处理模块420)可以使用训练后的机器学习模型处理骨导音频数据以获取重构的骨导音频数据。在一些实施例中,处理设备122可以将骨导音频数据输入到训练后的机器学习模型中,然后训练后的机器学习模型可以输出经处理的骨导音频数据。在一些实施例中,处理设备122可以提取骨导音频数据的声学特征,并将提取的骨导音频数据的声学特征输入到训练后的机器学习模型中。训练机学习模型可输出经处理的骨导音频数据。经处理的骨导音频数据中高于频率阈值或频率点(例如,1000Hz、2000Hz、3000Hz等)的骨导音频数据频率成分相对于未经处理的骨导音频数据中高于该频率阈值或频率点骨导音频数据的频率成分增加。在一些实施例中,处理设备122可以将处理后的骨导音频数据发送到客户终端(例如,终端130)。客户终端(例如,终端130)可以将处理后的骨导音频数据转换为语音并向用户播放语音。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。
图7是根据本申请的一些实施例所示的基于谐波修正模型重构骨导音频数据的示例性过程的流程图。在一些实施例中,过程700可以实现为存储设备140、ROM 230或RAM 240或存储器390中存储的指令(例如,应用程序)。处理设备122、处理器220和/或CPU 340可以执行指令,并且当执行指令时,处理设备122、处理器220和/或CPU 340可以被配置用于执行处理700。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程700可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图7中示出并在下面描述的过程700的操作的顺序是非限制性的。在一些实施例中,可以执行过程700的一个或以上操作以实现如结合图5所描述的操作530的至少一部分。
在710中,处理设备122(例如,获取模块410)可以获取骨导音频数据。在一些实施例中,如结合操作510所述,当用户说话时,骨导音频数据可以是由骨传导传感器采集的原始音频数据(例如,第一音频数据)。例如,用户的语音可以由骨传导传感器(例如,骨传导麦克风112)采集以生成电信号(例如,模拟信号或数字信号)(即,骨导音频数据)。在一些实施例中,骨导音频数据可以包括具有不同频率和幅度的多个波。频率域中的骨导音频数据可以表示为包括多个元素的矩阵。多个元素中的每个元素可以表示波的频率和幅度。
在720中,处理设备122(例如,预处理模块420)可以确定骨导音频数据的幅度谱和相位谱。在一些实施例中,处理设备122可以通过对骨导音频数据执行傅里叶变换(FT)操作以确定骨导音频数据的幅度谱和相位谱。处理设备122可以确定频率域中的骨导音频数据的幅度谱和相位谱。例如,处理设备122可以利用峰值检测技术,包括但不限于谱包络估计声码器算法(SEEVOC)来检测得到骨导音频数据中波的峰值。处理设备122可以基于波的峰值确定幅度谱和相位谱。例如,波的幅度为波峰到波谷之间的距离的一半。
在730中,处理设备122(例如,预处理模块420)可以获得谐波修正模型。谐波修正模型可以被配置用于提供特定气导音频数据的幅度谱与对应于特定气导音频数据的特定骨导音频数据的幅度谱之间的关系。可以基于所述关系和特定骨导音频数据的幅度谱确定对应于所述特定骨导音频数据的特定气导音频数据的幅度谱。如这里所使用的,特定的气导音频数据也可以被称为对应于特定的骨导音频数据的等效气导音频数据骨导音频数据或重构的骨导音频数据。
在一些实施例中,谐波修正模型可以是音频信号生成系统100的默认设置。在一些实施例中,处理设备122可以从存储设备140、存储模块440或任何其他存储设备获取谐波修正模型。在一些实施例中,谐波修正模型可以基于一组或多组骨导音频数据和相应的气导音频数据的确定。每组中的骨导音频数据和相应的气导音频数据可以由骨传导传感器和气传导传感器由操作者(例如,测试人员)在无噪声环境中说话时同时采集。骨传导传感器和气传导传感器可以与用于采集第一音频数据的骨传导传感器和用于采集第二音频数据的气传导传感器相同或不同。在一些实施例中,可以基于一组或多组骨导音频数据组和相应的气导音频数据根据操作a1至a3确定谐波修正模型。在操作a1中,处理设备122可以使用峰值检测技术(例如,谱包络估计声码器算法(SEEVOC)确定每组中的骨导音频数据的幅度谱和每组中相应的气导音频数据的幅度谱。在操作a2中,处理设备122可以基于每个组中的骨导音频数据和相应的气导音频数据的幅度谱确定候选校正矩阵。例如,处理设备122可以基于每组中气导音频数据的幅度谱与相应的骨气导音频数据的幅度谱的比值确定候选校正矩阵。在操作a3中,处理设备122可以基于一组或多组中每组骨导音频数据和对应的气传导音频数对应的候选校正矩阵确定谐波修正模型。例如,处理设备122可以确定一组或多组骨导音频数据及其对应的气导音频数据所对应的候选校正矩阵的平均值为谐波校正模型。
在一些实施例中,采集用于确定谐波修正模型的骨导音频数据的骨传导传感器所处身体的部位可以与采集待使用谐波修正模型重构的骨导音频数据的骨传导传感器所处的身体的部位一致和/或相同。例如,采集用于确定谐波修正模型的骨导音频数据的骨传导传感器所处身体的部位可以与采集第一音频数据的骨传导传感器所处的身体的部位相同。再例如,如果采集第一音频数据的骨传导传感器所处的身体的部位是颈部,采集用于确定谐波修正模型的骨导音频数据的骨传导传感器所处身体的部位也是颈部。由位于使用者身体的不同部位的骨传导传感器采集的多组数据可以生成不同的谐波修正模型。例如,可以在用户说话时通过位于使用者身体第一部位的骨传导传感器和气导传感器获取第一组的骨导音频数据与对应的气导音频数据。可以在用户说话时通过位于使用者身体第二部位的骨传导传感器和气导传感器获取第二组的骨导音频数据和对应的气导音频数据。可以基于第一组的骨导音频数据和对应的气导音频数据确定第一谐波修正模型。可以基于第二组的骨导音频数据和对应的气导音频数据确定第二谐波修正模型。第一谐波修正模型和第二谐波修正模型不同。第一谐波修正模型和第二谐波修正模型提供的特定气导音频数据的幅度谱与对应于特定气导音频数据的特定骨导音频数据的幅度谱之间的对应关系不同。基于第一谐波修正模型和第二谐波修正模型重构同一骨导音频数据得到的重构骨导音频数据不同。
在740中,处理设备122(例如,预处理模块420)可以校正骨导音频数据的幅度谱以获得骨导音频数据的校正后幅度谱。在一些实施例中,谐波修正模型可以包括校正矩阵,该校正矩阵包括与骨导音频数据(例如,图5中所述的第一音频数据)的幅度谱中的每个元素相对应的权重系数。如这里使用的,幅度谱中的元素可以指波(即,频率成分)的幅度。处理设备122可以通过将校正矩阵与骨导音频数据(例如,图5中所述的第一音频数据)的幅度谱相乘来校正骨导音频数据(例如,图5中所述的第一音频数据或归一化的第一音频数据)的幅度谱,以获得骨导音频数据(例如,图5中所述的第一音频数据)的校正后的幅度谱。
在750中,处理设备122(例如,预处理模块420)可以骨导音频数据基于校正后的幅度谱和骨导音频数据的相位谱确定重构的骨导音频数据。在一些实施例中,处理设备122可以对校正后的幅度谱和骨导音频数据的相位谱执行逆傅里叶变换,以获得重构的骨导音频数据。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。
图8是根据本申请的一些实施例所示的基于稀疏矩阵技术重构骨导音频数据的示例性过程的流程图。在一些实施例中,过程800可以实现为存储设备140、ROM 230或RAM 240或存储器390中存储的指令(例如,应用程序)。处理设备122、处理器220和/或CPU 340可以执行指令,并且当执行指令时,处理设备122、处理器220和/或CPU 340可以被配置用于执行处理800。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程800可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图8中示出并在下面描述的过程800的操作的顺序是非限制性的。在一些实施例中,可以执行过程800的一个或以上操作以实现如结合图5所描述的操作530的至少一部分。
在810中,处理设备122(例如,获取模块410)可以获取骨导音频数据。在一些实施例中,如结合操作510所述,当用户说话时,骨导音频数据可以是由骨传导传感器采集的原始音频数据(例如,第一音频数据)。例如,用户的语音可以由骨传导传感器(例如,骨传导麦克风112)采集以生成电信号(例如,模拟信号或数字信号)(即骨导音频数据)。在一些实施例中,骨导音频数据可以包括具有不同频率和幅度的多个波。频率域中的骨导音频数据可以表示为矩阵X。矩阵X可以基于字典矩阵D和稀疏码矩阵C确定。例如,可以根据等式(4)确定音频数据:
X≈DC(4)。
在820,处理设备122(例如,预处理模块420)可以获得第一变换关系,用于将骨导音频数据的字典矩阵转换为与骨导音频数据相对应的重构骨导音频数据的字典矩阵。在一些实施例中,第一变换关系可以是音频信号生成系统100的默认设置。在一些实施例中,处理设备122可以从存储设备140、存储模块440或任何其他存储设备获得第一变换关系。在一些实施例中,可以基于一组或多组骨导音频数据和相应的气导音频数据(即语音样本)确定第一变换关系。每组中的骨导音频数据和相应的气导音频数据可以在无噪声环境中分别由骨传导传感器和气传导传感器在操作者(例如,测试者)说话时同时采集。例如,处理设备122可以根据操作840中所述的确定每组数据中骨导音频数据的字典矩阵和骨导音频数据相应的气导音频数据字典矩阵。处理设备122可以将每组数据中气导音频数据的字典矩阵除以相应的骨导音频数据的字典矩阵,用于一组或多组骨导音频数据和相应的气导音频数据以获得候选第一变换关系。在一些实施例中,处理设备122可以基于多组骨导音频数据和相应的气导音频数据的确定多个候选第一变换关系。处理设备122可以对多个候选第一变换关系求平均以获得第一变换关系。在一些实施例中,处理设备122可以将多个候选第一变换关系中的一个确定为第一变换关系。
在830,所述处理设备122(例如,预处理模块420)可以获得第二变换关系,用于将骨导音频数据的稀疏码矩阵转换为与骨导音频数据相对应的重构骨导音频数据的稀疏码矩阵。在一些实施例中,第二变换关系可以是音频信号生成系统100的默认设置。在一些实施例中,处理设备122可以从存储设备140、存储模块440或任何其他存储设备获取第二变换关系。在一些实施例中,可以基于一组或多组骨导音频数据和相应的气导音频数据的确定第二变换关系。例如,处理设备122可以根据操作840所述的确定一组或多组中每组数据中骨导音频数据的稀疏码矩阵和骨导音频数据相应的气导音频数据的稀疏码矩阵。处理设备122可以通过气导音频数据的稀疏码矩阵除以相应的骨导音频数据的稀疏码矩阵以获得候选第二变换关系。在一些实施例中,处理设备122可以确定基于一组或多组的骨导音频数据和相应的气导音频数据确定一个或多个候选第二变换关系。处理设备122可以对一个或多个候选第二变换关系求平均值以获得第二变换关系。在一些实施例中,处理设备122可以将一个或多个候选第二变换关系中的一个确定为第二变换关系。
在一些实施例中,采集用于确定第一变换关系(和/或第二变换关系)的骨导音频数据的骨传导传感器所处身体的部位可以与采集待使用第一变换关系(和/或第二变换关系)重构的骨导音频数据的骨传导传感器所处的身体的部位相同。例如,采集用于确定第一变换关系(和/或第二变换关系)的骨导音频数据的骨传导传感器所处身体的部位可以与采集第一音频数据的骨传导传感器所处的身体的部位相同。再例如,如果采集第一音频数据的骨传导传感器所处的身体的部位是颈部,采集用于确定第一变换关系(和/或第二变换关系)的骨导音频数据的骨传导传感器所处身体的部位也是颈部。由位于使用者身体的不同部位的骨传导传感器采集的不同骨导音频数据可以生成不同的第一变换关系(和/或第二变换关系)。基于不同第一变换关系(和/或第二变换关系)重构相同的骨导音频数据可以获得不同的重构后的骨导音频数据。
在840中,处理设备122(例如,预处理模块420)可以基于骨导音频数据(例如,图5中所述的第一音频数据或归一化的第一音频数据)的字典矩阵使用第一变换关系确定重构的骨导音频数据(例如,图5中所述的重构的第一音频数据)的字典矩阵。例如,处理设备122可以将第一变换关系(例如,以矩阵形式)与骨导音频数据(例如,图5中所述的第一音频数据或归一化的第一音频数据)的字典矩阵相乘,以获得重构的骨导音频数据(例如,图5中所述的重构的第一音频数据)的字典矩阵。处理设备122可以通过执行至少两次迭代确定音频数据(例如,骨导音频数据(例如,第一音频数据)、语音样本的骨导音频数据和/或气导音频数据)的字典矩阵和/或稀疏码矩阵。在执行至少两个迭代之前,处理设备122可初始化音频数据(例如,第一音频数据)的字典矩阵以获取初始字典矩阵。例如,处理设备122可以将初始字典矩阵中的每个元素设置为0或1。在每次迭代中,处理设备122可以基于音频数据(例如,第一音频数据)和初始字典矩阵利用,例如正交匹配追踪(OMP)算法确定音频数据(例如,第一音频数据)的估计稀疏码矩阵。处理设备122可以基于音频数据(例如,第一音频数据)和估计稀疏码矩阵利用,例如,K-奇异值分解(K-SVD)算法确定估计字典矩阵。处理设备122可以根据等式(4)基于估计字典矩阵和估计稀疏码矩阵确定估计音频数据。处理设备122可以将估计音频数据与音频数据(例如,第一音频数据)进行比较。如果在当前迭代中生成的估计音频数据与音频数据(例如,第一音频数据)之间的差异超过阈值,则处理设备122可以使用在当前迭代中生成的估计字典矩阵来更新初始字典矩阵。处理设备122可以基于更新的初始字典矩阵的执行下一次迭代,直到在当前迭代中生成的估计音频数据与音频数据(例如,第一音频数据)之间的差小于阈值。若当前迭代中生成的估计音频数据与音频数据之间的差小于阈值,处理设备122可以将估计字典矩阵和在当前迭代中生成的估计稀疏码矩阵指定为音频数据(例如,第一音频数据)的字典矩阵和/或稀疏码矩阵。
在850中,处理设备122(例如,预处理模块420)可以使用第二变换关系基于骨导音频数据(例如,图5中所述的第一音频数据或归一化的第一音频数据)的稀疏码矩阵确定重构的骨导音频数据(例如,图5中所述的重构的第一音频数据)的稀疏码矩阵。例如,处理设备122可以将第二变换关系(例如,矩阵)与骨导音频数据的稀疏码矩阵相乘,以获得重构的第一音频数据的稀疏码矩阵。可以如操作840中所述确定第一音频数据的稀疏码矩阵。
在860中,处理设备122(例如,预处理模块420)可以基于重构的骨音频数据的字典矩阵和稀疏码矩阵确定重构的骨导音频数据(例如,图5中所述的重构的第一音频数据)。处理设备122可以根据等式(4)基于操作840和850所确定的字典矩阵和稀疏码矩阵确定重构的骨导音频数据。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。例如,操作820和830可以集成到单个操作中。
图9是根据本申请的一些实施例所示的用于生成音频数据的示例性过程的流程图。在一些实施例中,过程900可以实现为存储设备140、ROM 230或RAM 240或存储器390中存储的指令(例如,应用程序)。处理设备122、处理器220和/或CPU 340可以执行指令,并且当执行指令时,处理设备122、处理器220和/或CPU 340可以被配置用于执行处理900。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程900可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图9中示出并在下面描述的过程900的操作的顺序是非限制性的。在一些实施例中,可以执行过程900的一个或以上操作以实现如结合图5所描述的操作540的至少一部分。
在910中,处理设备122(例如,音频数据生成模块430或频率确定单元432)可以至少部分地基于骨导音频数据和/或气导音频数据确定一个或以上频率阈值。骨导音频数据(例如,第一音频数据或预处理后的第一音频数据)和气导音频数据(例如,第二音频数据或预处理后的第二音频数据)可以分别由骨传导传感器和气传导传感器在用户说话时同时采集。关于骨导音频数据和气导音频数据的更多描述可以在本申请的其他地方找到(例如,图5及其描述)。
如本文中所述,频率阈值也可以被称为频率点。在一些实施例中,频率阈值可以是骨导音频数据和/或气导音频数据中频率成分的频率值。在一些实施例中,频率阈值可以与骨导音频数据和/或气导音频数据中频率成分的频率值不同。在一些实施例中,处理设备122可以基于与骨导音频数据相关联的频率响应曲线确定频率阈值。与骨导音频数据相关联的频率响应曲线可包括随频率变化而变化的频率响应值。在一些实施例中,处理设备122可以基于与骨导音频数据相关联的频率响应曲线的频率响应值确定频率阈值。例如,处理设备122可以将在一定频率范围(例如,如图11所示的频率响应曲线m的0-2000Hz)内的最大频率(例如,如图11所示频率响应曲线m的2000Hz的)确定为频率阈值,在该频率范围内的频率对应的频率响应值小于一定阈值(例如,如图11所示的频率响应曲线m中的为80dB左右)。又例如,处理设备122可以将一定频率范围(例如,如图11所示的频率响应曲线m中的4000Hz-20kHz),)中最小频率(例如,如图11所示的频率响应曲线m的4000Hz)确定为频率阈值,该频率范围内的频率对应的频率响应值大于一定阈值(例如,如图11所示的频率响应曲线m的大约90dB)。作为又一示例,处理设备122可以将频率范围内的最小频率和最大频率确定为频率阈值,该频率范围内的频率对应的频率响应值在一定范围内。再例如,如图11所示,处理设备122可以基于骨导音频数据的频率响应曲线“m”确定一个或以上频率阈值。处理设备122可以确定小于某一阈值(例如,70dB)的频率响应值对应的频率范围(0-2000Hz)。处理设备122可以将该频率范围中的最大频率确定为频率阈值。在一些实施例中,处理设备122可以根据频率响应曲线的变化特性确定一个或以上频率阈值。例如,处理设备122可以将频率响应曲线具有稳定变化的频率范围中的最大频率和/或最小频率确定为频率阈值。又例如,处理设备122可以将频率响应曲线变化剧烈的频率范围内的最大频率和/或最小频率确定为频率阈值。再例如,相对于大于1000Hz且小于4000Hz的频率范围,频率范围小于1000Hz的频率响应曲线m基本上稳定地变化。处理设备122可以将1000Hz和4000Hz确定为频率阈值。在一些实施例中,处理设备122可以使用本申请中其他地方描述的一个或以上重构技术(例如,图5及其描述)来重构骨导音频数据,以获得重构的骨导音频数据。处理设备122可以确定与重构的骨导音频数据相关联的频率响应曲线。处理设备122可以基于重构的骨导音频数据相关联的频率响应曲线确定频率阈值,与上述所述的基于骨导音频数据的频率响应曲线确定频率阈值的方法相同或类似。
在一些实施例中,处理设备122可以基于与气导音频数据的至少一部分相关联的噪声水平确定一个或以上频率阈值。噪声水平越高,频率阈值(例如,最小频率阈值)可以越高。噪声水平越低,频率阈值(例如,最小频率阈值)可以越低。在一些实施例中,与气导音频数据相关联的噪声水平可以由气导音频数据中包括的噪声的量或能量来表示。气导音频数据中包含的噪声的量或能量越大,噪声水平越大。在一些实施例中,噪声水平可以由气导音频数据的信噪比表示。信噪比越大,噪声水平越低。与气导音频数据相关的信噪比越大,阈值越小。例如,如果信噪比是0dB,则频率阈值可以是2000Hz。如果信噪比是20dB,则频率阈值可以是4000Hz。例如,频率阈值可以基于等式(5)确定如下:
Figure BDA0003543861570000471
其中,Fpoint可以表示频率阈值,F1、F2、F3可以是0-20KHz范围内的值,其中满足F1>F2>F3。A1和A2为常数值,例如,A1可以是0,A2可以等于20。
进一步的,频率阈值可以由等式(6)表示:
Figure BDA0003543861570000472
在一些实施例中,处理设备122可以根据等式(6)确定气导音频数据的信噪比如下:
Figure BDA0003543861570000481
其中n指的是气导音频数据中的第n帧语音帧,
Figure BDA0003543861570000482
指的是包含在气导音频数据中的纯音频数据的能量,
Figure BDA0003543861570000483
指的是包含在气导音频数据中的噪声数据的能量。在一些实施例中,处理设备122可以使用噪声估计算法确定气导音频数据中的噪声数据,例如最小值统计(MS)算法、最小值控制递归平均(MCRA)算法等。处理设备122可以基于气导音频数据中的噪声数据确定气导音频数据中的纯音频数据。然后,处理设备122可以确定气导音频数据中的纯音频数据的能量和气导音频数据中的噪声数据的能量。在一些实施例中,处理设备122可以使用骨传导传感器和气传导传感器确定气导音频数据中的噪声数据。例如,处理设备122可以确定由气传导传感器采集的参考音频数据,在气导传感器采集参考音频数据的同时骨导传感器未采集到任何信号,且气导传感器采集参考音频数据的时间接近气导传感器采集气导音频数据的时间。如本文所使用的,某一时间接近另一时间可以指两时间之间的差距小于一定的阈值(例如,10ms、100ms、1秒、2秒、3秒、4秒等)。参考音频数据可以等效为气导音频数据中的噪声数据。然后,处理设备122可以基于气导音频数据中的噪声数据(即参考音频数据)确定气导音频数据中的纯音频数据。并且处理设备122可以根据等式(6)确定与气导音频数据相关联的信噪比。
在一些实施例中,处理设备122可以提取气导音频数据中噪声数据的能量,并基于噪声数据的能量和气导音频数据的总能量确定纯音频数据的能量。例如,处理设备122可以从气导音频数据的总能量中减去气导音频数据中的噪声数据的能量,以获得气导音频数据中的纯音频数据的能量。处理设备122可以根据等式(7)基于纯音频数据的能量和噪声数据的能量确定信噪比。
在920中,处理设备122(例如,音频数据生成模块430或权重确定单元434)可以根据一个或以上频率阈值将骨导音频数据和气导音频数据分别分成多个片段。在一些实施例中,骨导音频数据和气导音频数据为时域数据,处理设备122可以对骨导音频数据和气导音频数据执行域变换操作(例如,FT操作),以将骨导音频数据和气导音频数据转换为频域。在一些实施例中,骨导音频数据和气导音频数据可以为频域数据。频域中的骨导音频数据和气导音频数据分别可以包括频谱。频域中的骨导音频数据也可以被称为骨导频谱。频域中的气导音频数据也可以被称为气导频谱。处理设备122可以将骨导频谱和气导频谱分别分成多个片段。骨导音频数据的每个片段可以对应于气导音频数据的一个片段。如本文所使用的,气导音频数据的片段对应骨导音频数据的片段可以指的是骨导音频数据和气导音频数据的两个片段由一个或两个相同的频率阈值定义。例如,如果骨导音频数据的特定片段由频率点2000Hz和4000Hz定义,换句话说,骨导音频数据的特定片段包括在2000Hz到4000Hz范围内的频率成分,骨导音频数据的特定片段对应的气导音频数据的片段也可以由频率阈值2000Hz和4000Hz定义。换句话说,气导音频数据的片段中与骨导音频数据中由2000Hz到4000Hz定义的片段对应的片段包括在2000Hz到4000Hz范围内的频率成分。
在一些实施例中,频率阈值的计数或数量可以是一个,处理设备122可以将骨导频率谱和气导频率谱分别分成两个片段。例如,骨导频谱的两个片段的其中一个片段可以包括骨导频谱中频率成分小于频率阈值的一部分,骨导频率频谱的两个片段的另一个片段可包括骨导频谱中频率成分高于频率阈值的剩余的部分。
在930中,处理设备122(例如,音频数据生成模块430或权重确定单元434)可以分别确定骨导音频数据和气导音频数据的多个片段中的每个片段的权重。在一些实施例中,骨导音频数据的特定片段的权重和气导音频数据的相应特定片段的权重可以满足一个标准,使得骨导音频数据的特定片段的权重与气导音频数据的相应特定片段的权重之和等于1。例如,如果处理设备122根据单一频率阈值将骨导音频数据和气导音频数据分成两个片段。骨导音频数据中具有低于单一频率阈值的频率成分的片段(也被称为骨导音频数据的低频部分)的权重可以等于1、或0.9、或0.8等。气导音频数据中具有低于单一频率阈值的频率成分的片段(也称为气导音频数据的低频部分)的权重可以相应的等于0、或0.1、或0.2等,分别对应于骨导音频数据的片段的权重1、或0.9、或0.8等。骨导音频数据中具有高于单一频率阈值的频率成分的另一个片段(也被称为骨导音频数据的高频部分)的权重可以等于0、或0.1、或0.2等。气导音频数据中具有高于单一频率阈值的频率成分的另一个片段(也被称为气导音频数据的高频部分)的权重可以相应的等于1、或0.9、或0.8等,分别对应于骨导音频数据的另一个片段的权重数据0、或0.1、或0.2等。
在一些实施例中,处理设备122可以根据气导音频数据的信噪比确定骨导音频数据或气导音频数据的不同片段的权重。例如,气导音频数据的信噪比越低,骨导音频数据的特定片段的权重可以越大,并且气导音频数据的相应特定片段的权重可以越低。
在940中,处理设备122(例如,音频数据生成模块430或组合单元436)可以针对骨导音频数据和气导音频数据中的多个片段中的每个片段拼接骨导音频数据和气导音频数据,以生成拼接的音频数据。拼接的音频数据可以表示用户的语音,其具有比骨导音频数据和/或气导音频数据更高的保真度。骨导音频数据和气导音频数据的拼接可以指根据一个或以上频率阈值,在频域中选择气导音频数据的频率成分的一个或多个部分以及选择骨导音频数据的频率成分的一个或多个部分,并且基于骨导音频数据的所选部分和气导音频数据的所选部分生成音频数据。如本文所述,频率阈值也可称为频率拼接点。在一些实施例中,骨导音频数据和/或气导音频数据的选定部分可包括低于频率阈值的频率成分。在一些实施例中,骨导音频数据和/或气导音频数据的选定部分可包括低于频率阈值并且大于另一频率阈值的频率成分。在一些实施例中,骨导音频数据和/或气导音频数据的选定部分可包括大于频率阈值的频率成分。
在一些实施例中,处理设备122可以根据等式(8)确定拼接的音频数据如下:
Figure BDA0003543861570000501
其中,
Figure BDA0003543861570000502
指骨导音频数据,
Figure BDA0003543861570000503
指气导音频数据,
Figure BDA0003543861570000504
包括(am1,am2,...,amN)是指骨导音频数据的多个片段的权重,
Figure BDA0003543861570000505
包括(bm1,bm2,...,bmN)指的是气导音频数据的多个片段的权重,(xm1,xm2,...,xmN)指骨导音频数据的多个片段,每个片段包括由频率阈值定义的频率范围内的频率成分,(ym1,ym2,...,ymN)是指气导音频数据的多个片段,每个片段包括由频率阈值定义的频率范围内的频率成分。例如,xm1以及ym1可以分别指骨导音频数据和气导音频数据中低于1000Hz的频率成分。又例如,xm2以及ym2可以分别指骨导音频数据和气导音频数据中在1000Hz和4000Hz的频率范围内的频率成分。N可以是常数,例如1、2、3等。amn(n=1,2,…N)可以是0到1范围内的常数。bmn(n=1,2,…N)可以是0到1范围内的常数。amn(n=1,2,…N)以及bmn(n=1,2,…N)之和等于1。在一些实施例中,N可以等于2。处理设备122可以根据单一频率阈值分别将每个骨导音频数据和气导音频数据分为两个片段。例如,处理设备122可以根据单一频率阈值确定骨导音频数据(或者气导音频数据)的低频部分和的高频部分。骨导音频数据(或者气导音频数据)的低频部分可包括骨导音频数据(或者气导音频数据)中低于单一频率阈值的频率成分,骨导音频数据(或者气导音频数据)的高频部分可包括骨导音频数据(或者气导音频数据)中高于单一频率阈值的频率成分。在一些实施例中,处理设备122可以基于一个或以上滤波器确定骨导音频数据(或者气导音频数据)的低频部分和高频部分。一个或以上滤波器可包括低通滤波器、高通滤波器、带通滤波器等,或其任何组合。
在一些实施例中,处理设备122可以至少部分基于单一频率阈值分别确定骨导音频数据的低频部分和骨导音频数据的高频部分的第一权重和第二权重。处理设备122可以分别至少部分地基于单一频率阈值确定气导音频数据的低频部分和气导音频数据的高频部分的第三权重和第四权重。在一些实施例中,可以基于气导音频数据的信噪比确定第一权重、第二权重、第三权重和第四权重。例如,如果气导音频数据的信噪比大于阈值,处理设备122可以确定第一权重小于第三权重,和/或第二权重大于第四权重。又例如,处理设备122可以确定多个信噪比范围,每个信噪比范围对应固定的第一权重、第二权重、第三权重和第四权重。第一权重和第二权重可以相同或不同,并且第三权重和第四权重可以相同或不同。第一权重和第三权重的和为1,第二权重和第四权重的和为1。第一权重、第二权重、第三权重第和/或四权重可以是0到1范围内的常数值,例如,1、0.9、0.8、0.7、0.3、0.4、0.5、0.6、02、0.1、0等。在一些实施例中,处理设备122可以分别使用第一权重、第二权重、第三权重和第四权重通过对骨导音频数据的低频部分和高频部分、气导音频数据的低频部分和高频部分进行加权以确定拼接的音频数据。例如,处理设备122可以使用第一权重和第三权重对骨导音频数据的低频部分和气导音频数据的低频部分进行加权求和确定拼接后的音频数据的低频部分。处理设备122可以通使用第二权重和第四权重对骨导音频数据的高频部分和气导音频数据的高频部分进行加权求和以确定拼接后的音频数据的高频部分。处理设备122可以组合拼接后的音频数据的低频部分和拼接后的音频数据的高频部分以获取拼接后的音频数据。
在一些实施例中,骨导音频数据的低频部分的第一权重可以等于1,骨导音频数据的高频部分的第二权重可以等于0。气导音频数据的低频部分的第三权重可以等于0,气导音频数据的高频部分的第四权重可以等于1。可以通过拼接骨导音频数据的低频部分和气导音频数据的高频部分来生成拼接后的音频数据。在一些实施例中,骨导音频数据和气导音频数据经拼接后产生的音频数据可以根据单一频率阈值的不同而不同。例如,如图14A至14C所示,图14A到14C是根据本申请的一些实施例所示的由特定骨导音频数据和特定气导音频数据分别在2000Hz、3000Hz和4000Hz的频率点进行拼接生成的拼接音频数据的时频图。图14A、14B和14C对应的拼接的音频数据中的噪声量彼此不同。频率拼接点越大,拼接的音频数据中的噪声量就越少。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。
图10是根据本申请的一些实施例所示的用于生成音频数据的示例性过程的流程图。在一些实施例中,过程1000可以实现为存储设备140、ROM 230或RAM240或存储器390中存储的指令(例如,应用程序)。处理设备122、处理器220和/或CPU 340可以执行指令,并且当执行指令时,处理设备122、处理器220和/或CPU 340可以被配置用于执行处理1000。以下所示过程的操作仅出于说明的目的。在一些实施例中,过程1000可以利用未描述的一个或以上附加操作,和/或没有所讨论的一个或以上操作来完成。另外,图10中示出并在下面描述的过程1000的操作的顺序是非限制性的。在一些实施例中,可以执行过程1000的一个或以上操作以实现如结合图5所描述的操作540的至少一部分。
在1010中,处理设备122(例如,音频数据生成模块430或权重确定单元434)可以至少部分基于骨导音频数据或气导音频数据中的至少一个,确定对应于骨导音频数据的权重。在一些实施例中,当用户说话时,骨导音频数据和气导音频数据可以分别由骨传导传感器和气传导传感器同时获得。气导音频数据和骨导音频数据可以代表用户的语音。关于骨导音频数据和气导音频数据的更多描述可以在图5及其描述中找到。
在一些实施例中,处理设备122可以基于气导音频数据的信噪比确定骨导音频数据的权重。关于确定气导音频数据的信噪比的更多描述可以在本申请的其他地方找到(例如,图9及其描述)。气导音频数据的信噪比越大,骨导音频数据的权重越低。例如,如果气导音频数据的信噪比大于预定的阈值,骨导音频数据的权重可以设置为值A,如果气导音频数据的信噪比小于该预定的阈值,骨导音频数据的权重可以设为值B,A<B。又例如,处理设备122可以根据等式(9)确定骨导音频数据的权重如下:
Figure BDA0003543861570000531
其中a1>a2>a3。A1和/或A2可以是音频信号生成系统100的默认设置。进一步的,处理设备122可以确定至少两个信噪比范围,每个信噪比范围对应于骨导音频数据的权重的值,例如等式(10):
Figure BDA0003543861570000532
其中,Wbone指的是与骨导音频数据相对应的权重。
在1020中,处理设备122(例如,音频数据生成模块430或权重确定单元434)可以至少部分基于骨导音频数据或气导音频数据中的至少一个,确定对应于气导音频数据的权重。用于确定气导音频数据的权重的方法可以与用于确定骨导音频数据的权重的方法类似或相同,如操作1010中所述。例如,处理设备122可以基于气导音频数据的信噪比确定气导音频数据的权重。关于确定气导音频数据的信噪比的更多描述可以在本申请的其他地方找到(例如,图9及其描述)。气导音频数据的信噪比越大,气导音频数据的权重越高。又例如,如果气导音频数据的信噪比大于预定的阈值,则气导音频数据的权重可以设置为值X,如果气导音频数据的信噪比小于该预定阈值,则气导音频数据的权重可以设置为值Y,并且X>Y。骨导音频数据的权重和气导音频数据的权重需要满足一定标准,使得骨导音频数据的权重和气导音频数据的权重之和等于1。处理设备122可以确定基于骨导音频数据的权重确定气导音频数据的权重。例如,处理设备122可以基于1和骨导音频数据的权重之间的差值确定气导音频数据基的权重。
在1030,处理设备122(例如,音频数据生成模块430或组合单元436)可以利用骨导音频数据的权重和气导音频数据的权重对骨导音频数据和气导音频数据进行加权求和确定目标音频数据。目标音频数据可以表示用户的语音,其与骨导音频数据和气导音频数据表示的语音相同。在一些实施例中,处理设备122可以根据等式(11)确定目标音频数据如下:
Figure BDA0003543861570000541
其中,Sair指的是气导音频数据,Sbone指的是骨导音频数据,a1是指气导音频数据的权重,b1指的是骨导音频数据的权重,Sout指的是目标音频数据。an以及bn之和等于1的标准。例如,目标音频数据可以根据等式(12)确定如下:
Figure BDA0003543861570000542
在一些实施例中,处理设备122可以经由网络150将目标音频数据发送到客户终端(例如,终端130)、存储设备140和/或任何其他存储设备(未在音频信号生成系统100中示出)。
实例
以下提供的这些实施例仅仅是为了说明的目的,而不是为了限制本申请的范围。
示例1骨导音频数据、重构骨导音频数据,以及相应的气导音频数据的频率响应曲线
如图11所示,曲线“m”表示骨导音频数据的频率响应曲线,曲线“n”表示对应于骨导音频数据的气导音频数据的频率响应曲线。骨导音频数据和气导音频数据代表用户的相同语音。曲线“m1”表示通过根据过程600使用训练后的机器学习模型重构骨导音频数据而生成的重构的骨导音频数据的频率响应曲线。如图11所示,频率响应曲线“m1”比频率响应曲线“m”更接近频率响应曲线“n”。换句话说,重构的骨导音频数据与骨导音频数据相比更接近于气导音频数据。此外,重构的骨导音频数据的频率响应曲线“m1”的低于频率点(例如,2000Hz)部分与气导音频数据的频率更相似或接近。
示例2通过位于使用者身体的不同部位的骨传导传感器采集的骨导音频数据的频率响应曲线
如图12所示,曲线“p”表示由位于使用者身体颈部的第一骨传导传感器采集的骨导音频数据的频率响应曲线。曲线“b”表示由位于使用者身体的乳突处的第二骨传导传感器采集的骨导音频数据的频率响应曲线。曲线“o”表示由位于使用者身体的耳道(例如,外耳道)的第三骨传导传感器采集的骨传导音频数据的频率响应曲线。在一些实施例中,第二骨传导传感器和第三骨传导传感器与第一骨传导传感器配置相同。由第一骨传导传感器、第二骨传导传感器以及第三骨传导传感器采集的骨导音频数据表示同一用户的相同语音,由第一骨传导传感器、第二骨传导传感器以及第三骨传导传感器同时采集。在一些实施例中,第一骨传导传感器、第二骨传导传感器和第三骨传导传感器可以采用不同的配置。不同配置的骨传导传感器在同一部位采集的骨导音频数据的频响曲线可能不同。
如图12所示,频率响应曲线“p”、频率响应曲线“b”以及频率响应曲线“o”彼此不同。换句话说,由第一骨传导传感器、第二骨传导传感器以及第三骨传导传感器采集的骨传导音频数据与第一骨传导传感器、第二骨传导传感器以及和第三骨传导传感器所在的使用者身体的部位的不同而不同。例如,位于使用者身体颈部的第一骨传导传感器采集的骨导音频数据中频率成分小于1000Hz的响应值大于由位于使用者身体的乳突处的第二骨传导传感器采集的骨导音频数据中频率成分小于1000Hz的响应值。频率响应曲线可以反映骨传导传感器将声能转换为电信号的能力。根据频率响应曲线“p”“b”和“o”,骨传导传感器在身体的不同部位,在0到约5000Hz的频率范围的响应值大于超过约5000HZ的频率范围的响应值。频率响应曲线“p”“b”和“o”在0到约2000Hz的频率范围的频率响应曲线变化较为平稳,超过2000H频率响应曲线变化剧烈。传感器位于使用者身体的不同区域对低频信号或低频成分(例如,0-2000Hz、或0-5000HZ)的拾取能力较强,即骨传导传感器采集的信号能量主要集中在低频段。
因此,如图12A所示,用于采集和/或播放音频信号的骨传导装置可包括用于采集骨导音频信号的骨传导传感器,该骨导传感器可以通过对骨传导装置结构的设计使之位于使用者身体的某一个或多个部分或位置。在进行骨传导装置结构的设计时,可以基于频率响应曲线、信号强度、用户的舒适度、美观度、便捷性等一个或多个特征来确定骨传导传感器所处使用者身体的区域。例如,骨传导设备可以包括用于采集骨导音频信号的骨传导传感器。当使用者佩戴骨传导装置时,骨传导传感器可以处于使用者的耳屏、耳道和/或与使用者的耳屏、耳道接触等位置,使由骨传导传感器采集的音频信号的信号强度相对较高,同时佩戴较为便捷美观。
示例3:由骨传导传感器在使用者身体的同一区域施加不同压力而采集的骨传导音频数据的示例性频率响应曲线。
在图12B中,曲线“L1”表示由骨传导传感器在用户耳屏处施加的压力F1为0N而采集的骨传导音频数据的频率响应曲线。如本文所使用的,由骨传导传感器在用户身体部位上施加的压力也可以被称为骨传导传感器或骨传导设备的夹紧力。曲线“L2”表示由骨传导传感器在用户耳屏处施加的压力F2为0.2N而采集的骨传导音频数据的频率响应曲线。曲线“L3”表示由骨传导传感器在用户耳屏处施加的压力F3为0.4N而采集的骨传导音频数据的频率响应曲线。曲线“L4”表示由骨传导传感器在用户耳屏处施加的F4为0.8N而采集的骨传导音频数据的频率响应曲线。在图12B中,频率响应曲线“L1”-“L4”彼此不同。换句话说,通过骨传导传感器向使用者身体的相同区域施加不同压力而采集的骨传导音频数据是不同的。
当骨传导传感器向使用者身体的某个部位上施加的压力不同时,骨传导传感器采集的骨传导音频数据可以是不同的。例如,由骨传导传感器采集的骨传导音频数据的信号强度可以随着压力的不同而不同。当压力从0N增大到0.8N的时候,信号强度先逐渐增大,后增大的趋势减缓,慢慢达到饱和。然而,骨传导传感器在使用者身体部位上施加的压力越大,用户佩戴时就会觉得越不舒服。因此,根据图12A和12B所示,用于采集和/或播放音频信号的骨传导装置可以包括用于采集骨导音频信号的骨传导传感器,该骨导传感器可以通过对骨传导装置结构设计使之位于使用者身体的某一个或多个部位或位置并且当用户佩戴时,骨导装置对用户该部位的夹紧力可以处于一定范围内。在对骨传导装置结构设计,可以基于频率响应曲线、信号强度、用户的舒适度等的一个或多个特征来确定骨传导传感器所处使用者身体的区域和/或施加于使用者身体该部位的夹紧力。例如,骨传导装置可以包括用于采集骨导音频信号的骨传导传感器,当使用者佩戴骨传导装置时,使得骨传导传感器与用户的耳屏接触,并对耳屏处施加的夹紧力在0至0.8N的范围内,例如0.2N,或0.4N,或0.6N,或0.8N等,这样可以使得采集到的骨导信号的信号强度较大,同时,合适的夹紧力会使用户佩戴时感觉较为舒适。
示例4:拼接音频数据的示例性时频图
图13A是根据本申请的一些实施例通过拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图。骨导音频数据和气导音频数据代表同一用户的相同语音。该气导音频数据包括噪声。图13B是根据本申请的一些实施例通过拼接骨导音频数据和预处理后的气导音频数据生成的拼接音频数据的时频图。通过使用维纳滤波器对气导音频数据进行降噪来生成预处理后的气导音频数据。图13C是根据本申请的一些实施例的通过骨导音频数据和另一个预处理后的气导音频数据生成的拼接音频数据的时频图。通过使用谱减法技术对气导音频数据进行降噪来生成另一个预处理后的音频数据。图13A至13C中所示的拼接音频数据的时频图是根据过程900基于相同的2000Hz频率拼接点生成。如图13A至13C所示,图13B(例如,区域M)和图13C(例如,区域N)所示的拼接音频数据中高于2000Hz频率成分比图13A(例如,区域O)所示的拼接音频数据中高于2000Hz的频率成分的噪声更少,可表明基于降噪的气导音频数据生成的拼接的音频数据比基于未被降噪的气导音频数据生成的拼接的音频数据具有更高的保真度。图13B所示的拼接音频数据中高于2000Hz的频率成分与图13C所示的拼接音频数据中高于2000Hz的频率成分不同,这是由于对气导音频数据执行了不同降噪技术。如图13B和13C所示,图13B所示的拼接音频数据中高于2000Hz的频率成分(例如,区域M)比图13C所示的拼接音频数据中高于2000Hz的频率成分(例如,区域N)具有更少的噪声。
示例4:根据不同频率阈值生成的拼接音频数据的示例性时频图
图14A是骨导音频数据的时频图。图14B是对应于骨导音频数据的气导音频数据的时频图。骨导音频数据(例如,图5中所述的第一音频数据)和气导音频数据(例如,图5中所述的第二音频数据)可以由骨导传感器和气导传感器在用户说话时同时采集。图14C到14E是根据本申请的一些实施例分别根据2000Hz、3000Hz和4000Hz的频率阈值(频率拼接点)拼接骨导音频数据和气导音频数据生成的拼接音频数据的时频图。比较图14C至14E所示的拼接音频数据的时频图与图14B所示的气导音频数据的时频图,图14C、14D和14E中的拼接音频数据中的噪声小于图14B所示的气导音频数据。频率阈值越大,拼接的音频数据中的噪声量就越少。将图14C至14E所示的拼接音频数据的时频图与图14A所示的骨导音频数据的时频率图进行比较,相对于图14A中小于频率2000Hz、3000Hz和4000Hz的频率成分,图14C至14E中分别小于频率2000Hz、3000Hz和4000Hz的频率成分增加。
应该注意的是,以上对各种实施例的描述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,可以根据本申请的描述,做出各种各样的变化和修改。然而,这些变化和修改不会背离本申请的范围。
上文已对基本概念做了描述,显然,对于阅读此申请后的本领域的普通技术人员来说,上述发明披露仅作为示例,并不构成对本申请的限制。虽然此处并未明确说明,但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。本申请中已建议该类修改、改进和修正,所以该类修改、改进、修正仍未超出本申请示范实施例的范围。
同时,本申请使用了特定词语来描述本申请的实施例。例如,“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特性。因此,应当强调并注意的是,本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或以上实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域的普通技术人员可以理解,本申请的各方面可以通过若干具有可专利性的主题或情况进行说明和描述,包括任何新的和有用的过程、机器、产品或物质的组合,或对其任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括韧体、常驻软件、微代码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外,本申请的各方面可以表现为位于一个或以上计算机可读介质中的计算机产品,所述产品包括计算机可读程序编码。
非暂时性计算机可读信号介质可以包括传播的数据信号,其中包含计算机可读程序代码,例如,在基带中或作为载波的一部分。此类传播信号可以有多种形式,包括电磁形式、光形式等或任何合适的组合。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通信、传播或传输供使用的程序。位于计算机可读信号介质上的程序代码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF等,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或以上程序语言编写,包括面向主体编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran、Perl、COBOL、PHP、ABAP,动态编程语言如Python、Ruby,和Groovy,或其他编程语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
类似地,应该理解的是,在本申请的实施例的前述描述中,各种特征有时在单个实施例、图或其描述中组合在一起,以简化本申请,有助于理解各个发明实施例的一个或以上。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。相反,发明的主体应具备比上述单一实施例更少的特征。
在一些实施例中,表达数量、性质等的数字用于描述和要求本申请的一些实施例应理解为在某些情况下通过术语“约”、“近似”或“基本上”进行修改。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
本文中提及的所有专利、专利申请、专利申请公布和其他材料(如论文、书籍、说明书、出版物、记录、事物和/或类似的东西)均在此通过引用的方式全部并入本文以达到所有目的,与上述文件相关的任何起诉文档记录、与本文件不一致或冲突的任何上述文件或对迟早与本文件相关的权利要求书的广泛范畴有限定作用的任何上述文件除外。举例来说,如果在描述、定义和/或与任何所结合的材料相关联的术语的使用和与本文件相关联的术语之间存在任何不一致或冲突,则描述、定义和/或在本文件中使用的术语以本文件为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims (25)

1.一种音频信号生成系统,包括:
至少一种存储介质,包括指令;
至少一个处理器与所述至少一个存储器介质通信,其中当执行所述指令时,所述至少一个处理器指示使所述系统执行的操作,所述操作包括:
获取由骨传导传感器采集的第一音频数据;
获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成;以及
基于所述第一音频数据和所述第二音频数据生成第三音频数据,其中,所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
2.根据权利要求1所述的系统,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,所述至少一个处理器用于使所述系统执行的操作包括:
对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据;以及
基于所述预处理后的第一音频数据和所述第二音频数据,生成所述第三音频数据。
3.根据权利要求2所述的系统,其特征在于,所述第一预处理操作包括归一化操作。
4.根据权利要求2或3所述的系统,其特征在于,对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据,所述指示至少一个处理器使所述系统执行的操作包括:
获取训练后的机器学习模型;
基于所述第一音频数据,使用所述训练后的机器学习模型确定所述预处理后的第一音频数据,其中,所述预处理后的第一音频数据中高于第二频率点的频率成分相对于所述第一音频数据中高于所述第二频率点的频率成分增加。
5.根据权利要求4所述的系统,其特征在于,所述训练后的机器学习模型由以下过程确定,所述过程包括:
获取多组训练数据,所述多组训练数据中的每组训练数据包括代表语音样本的骨导音频数据和气导音频数据;以及
使用所述多组训练数据训练初级机器学习模型,在所述初级机器学习模型的训练过程中,所述多组训练数据中的每组训练数据中的所述骨导音频数据作为所述初级机器学习模型的输入,以及与所述骨导音频数据对应的所述气导音频数据为所述初级机器学习模型的期望输出。
6.根据权利要求4或5所述的系统,其特征在于,用于采集所述至少两个训练数据组中每组训练数据的所述骨导音频数据的特定骨传导传感器所在的身体部位与用于采集所述第一音频数据的所述骨传导传感器所在的所述用户的身体部位相同。
7.根据权利要求4至6任一项所述的系统,其特征在于,所述初级机器学习模型基于递归神经网络模型或长短期记忆网络构建。
8.根据权利要求2或3所述的系统,其特征在于,对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据,所述至少一个处理器用于使所述系统执行的操作,包括;
获取滤波器,所述滤波器用于提供特定气导音频数据与所述特定气导音频数据对应的特定骨导音频数据之间的关系;以及
使用所述滤波器处理所述第一音频数据以确定所述预处理后的第一音频数据。
9.根据权利要求1至8任一项所述的系统,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,所述至少一个处理器使所述系统执行的操作,包括:
对所述第二音频数据执行第二预处理操作以获取预处理后的第二音频数据;以及
基于所述第一音频数据和所述预处理后的第二音频数据,生成所述第三音频数据。
10.根据权利要求9所述的系统,其特征在于,所述第二预处理操作包括降噪操作。
11.根据权利要求1至10任一项所述的系统,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,所述至少一个处理器使所述系统执行的操作,包括:
至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个确定一个或以上频率阈值;以及
基于所述一个或以上频率阈值、所述第一音频数据以及所述第二音频数据生成所述第三音频数据。
12.根据权利要求11所述的系统,其特征在于,至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述一个或以上频率阈值,所述至少一个处理器用于使所述系统执行的操作,包括:
确定与所述第二音频数据相关的噪声水平;以及
基于与所述第二音频数据相关的噪声水平,确定所述一个或以上频率阈值中的至少一个。
13.根据权利要求12所述的系统,其特征在于,与所述第二音频数据相关联的所述噪声水平由所述第二音频数据的信噪比表示,并且所述第二音频数据的所述信噪比由以下操作确定,包括:
使用所述骨传导传感器和所述气传导传感器确定所述第二音频数据中的噪声的能量;
基于所述第二音频数据中的所述噪声的能量,确定所述第二音频数据中的纯音频数据的能量;以及
基于所述第二音频数据中所述噪声的能量和所述第二音频数据中的所述纯音频数据的能量,确定所述信噪比。
14.根据权利要求12或13所述的系统,其特征在于,与所述第二音频数据相关联的所述噪声水平越大,所述一个或以上频率阈值中的至少一个频率阈值越大。
15.根据权利要求11所述的系统,其特征在于,至少部分基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述一个或以上频率阈值,所述至少一个处理器用于使所述系统执行的操作,包括:
基于与所述第一音频数据相关联的频率响应曲线确定所述一个或以上频率阈值中的至少一个。
16.根据权利要求11所述的系统,其特征在于,基于所述频率点、所述第一音频数据以及所述第二音频数据生成所述第三音频数据,所述至少一个处理器用于使所述系统执行的操作,包括:
根据所述一个或以上频率阈值在频率域中拼接所述第一音频数据和所述第二音频数据以生成所述第三音频数据。
17.根据权利要求16所述的系统,其特征在于,根据所述一个或以上频率阈值在频率域中拼接所述第一音频数据和所述第二音频数据以生成所述第三音频数据,所述指导至少一个处理器使所述系统执行的操作,包括:
确定所述第一音频数据的低频部分,所述低频部分包括低于所述一个或以上频率阈值中的某个频率阈值的频率成分;
确定所述第二音频数据的高频部分,所述高频部分包括高于所述一个或以上频率阈值中的所述某个频率阈值的频率成分;以及
拼接所述第一音频数据的所述低频部分和所述第二音频数据的所述高频部分以生成所述第三音频数据。
18.根据权利要求1至10任一项所述的系统,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,至少一个处理器使所述系统执行的操作,包括:
确定多个频率范围;
分别确定位于所述多个频率范围的每个频率范围内的所述第一音频数据的一部分和所述第二音频数据的一部分的第一权重和第二权重;以及
通过使用所述第一权重和所述第二权重,对位于所述多个频率范围中的每个频率范围内的所述第一音频数据的所述部分和所述第二音频数据的所述部分进行加权以确定所述第三音频数据。
19.根据权利要求1至10任一项所述的系统,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,所述至少一个处理器用于使所述系统执行的操作,包括:
至少部分地基于所述频率点,分别地确定所述第一音频数据的第一部分和所述第一音频数据的第二部分的第一权重和第二权重,所述第一音频数据的所述第一部分包括低于所述频率点的频率成分,以及所述第一音频数据的所述第二部分包括高于所述频率点的频率成分;
至少部分地基于所述频率点,分别地确定所述第二音频数据的第三部分和所述第二音频数据的第四部分的第三权重和第四权重,所述第二音频数据的所述第三部分包括低于所述频率点的频率成分以及所述第二音频数据的所述第四部分包括高于所述频率点的频率成分;以及
通过使用所述第一权重、所述第二权重、所述第三权重、所述第四权重对所述第一音频数据的所述第一部分、所述第一音频数据的所述第二部分、所述第二音频数据的所述第三部分和所述第二音频数据的所述第四部分进行加权以确定所述第三音频数据。
20.根据权利要求1至10任一项所述的系统,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,所述至少一个处理器用于使所述系统执行的操作,包括:
至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述第一音频数据的第一权重;
至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述第二音频数据的第二权重;以及
通过所述第一权重和所述第二权重对所述第一音频数据和所述第二音频数据的加权以确定所述第三音频数据。
21.根据权利要求1至20任一项所述的系统,其特征在于,所述至少一个处理器使所述系统执行附加操作,包括:
对所述第三音频数据执行后处理操作以获取目标音频数据,所述目标音频数据代表所述用户的所述语音,所述目标音频数据比所述第一音频数据和所述第二音频数据具有更高的保真度。
22.根据权利要求21所述的系统,其特征在于,所述后处理操作包括降噪操作。
23.一种音频信号生成方法,包括:
获取由骨传导传感器采集的第一音频数据;
获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成;以及
基于所述第一音频数据和所述第二音频数据生成第三音频数据,其中,所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
24.一种音频信号生成的方法,包括:
获取模块,用于获取由骨传导传感器采集的第一音频数据和由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成;以及
音频信号生成模块,用于基于所述第一音频数据和所述第二音频数据生成第三音频数据,其中,所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
25.一种非暂时性计算机可读介质,包括指令,其特征在于,当由至少一个处理器执行时,该组指令指示至少一个处理器执行动作:
获取由骨传导传感器采集的第一音频数据;
获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成;以及
基于所述第一音频数据和所述第二音频数据生成第三音频数据,其中,所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。
CN201980100309.9A 2019-09-12 2019-09-12 用于音频信号生成的系统和方法 Pending CN114424581A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/105616 WO2021046796A1 (en) 2019-09-12 2019-09-12 Systems and methods for audio signal generation

Publications (1)

Publication Number Publication Date
CN114424581A true CN114424581A (zh) 2022-04-29

Family

ID=74866872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980100309.9A Pending CN114424581A (zh) 2019-09-12 2019-09-12 用于音频信号生成的系统和方法

Country Status (7)

Country Link
US (1) US11902759B2 (zh)
EP (1) EP4005226A4 (zh)
JP (1) JP2022547525A (zh)
KR (1) KR20220062598A (zh)
CN (1) CN114424581A (zh)
BR (1) BR112022004158A2 (zh)
WO (1) WO2021046796A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581970A (zh) * 2019-09-12 2021-03-30 深圳市韶音科技有限公司 用于音频信号生成的系统和方法
US11902759B2 (en) 2019-09-12 2024-02-13 Shenzhen Shokz Co., Ltd. Systems and methods for audio signal generation

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI767696B (zh) * 2020-09-08 2022-06-11 英屬開曼群島商意騰科技股份有限公司 自我語音抑制裝置及方法
EP4241459A4 (en) * 2021-05-14 2024-01-03 Shenzhen Shokz Co Ltd SYSTEMS AND METHODS FOR GENERATING AUDIO SIGNALS
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、系统、电子设备和存储介质
US11978468B2 (en) 2022-04-06 2024-05-07 Analog Devices International Unlimited Company Audio signal processing method and system for noise mitigation of a voice signal measured by a bone conduction sensor, a feedback sensor and a feedforward sensor
FR3136096A1 (fr) * 2022-05-30 2023-12-01 Elno Dispositif électronique et procédé de traitement, appareil acoustique et programme d’ordinateur associés
US20240005937A1 (en) * 2022-06-29 2024-01-04 Analog Devices International Unlimited Company Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model
CN117174100B (zh) * 2023-10-27 2024-04-05 荣耀终端有限公司 骨导语音的生成方法、电子设备及存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02114708A (ja) * 1988-10-25 1990-04-26 Clarion Co Ltd マイクロホン装置
JPH0630490A (ja) 1992-05-12 1994-02-04 Katsuo Motoi イヤーセット型送受話器
DE69527731T2 (de) * 1994-05-18 2003-04-03 Nippon Telegraph & Telephone Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
JP2835009B2 (ja) * 1995-02-03 1998-12-14 岩崎通信機株式会社 骨導気導複合型イヤーマイクロホン装置
JPH08223677A (ja) * 1995-02-15 1996-08-30 Nippon Telegr & Teleph Corp <Ntt> 送話器
JP3095214B2 (ja) 1996-06-28 2000-10-03 日本電信電話株式会社 通話装置
JP2000261534A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 送受話器
JP2003264883A (ja) * 2002-03-08 2003-09-19 Denso Corp 音声処理装置および音声処理方法
JP2004279768A (ja) * 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd 気導音推定装置及び気導音推定方法
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7680656B2 (en) 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
JP2007251354A (ja) * 2006-03-14 2007-09-27 Saitama Univ マイクロホン、音声生成方法
KR100868763B1 (ko) 2006-12-04 2008-11-13 삼성전자주식회사 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를이용한 오디오 신호의 부호화/복호화 방법 및 장치
JP2010176042A (ja) * 2009-01-31 2010-08-12 Daiichikosho Co Ltd 歌唱音声録音カラオケシステム
FR2974655B1 (fr) 2011-04-26 2013-12-20 Parrot Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres".
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP2014096732A (ja) * 2012-11-09 2014-05-22 Oki Electric Ind Co Ltd 収音装置及び電話機
CN103208291A (zh) 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
JP6123503B2 (ja) * 2013-06-07 2017-05-10 富士通株式会社 音声補正装置、音声補正プログラム、および、音声補正方法
CN105533986B (zh) * 2016-01-26 2018-11-23 王泽玲 一种骨传导发箍
US11290802B1 (en) * 2018-01-30 2022-03-29 Amazon Technologies, Inc. Voice detection using hearable devices
CN108696797A (zh) * 2018-05-17 2018-10-23 四川湖山电器股份有限公司 一种音频电信号进行分频与合成的方法
CN109240639A (zh) 2018-08-30 2019-01-18 Oppo广东移动通信有限公司 音频数据的获取方法、装置、存储介质及终端
US11705133B1 (en) * 2018-12-06 2023-07-18 Amazon Technologies, Inc. Utilizing sensor data for automated user identification
CN109545193B (zh) 2018-12-18 2023-03-14 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109767783B (zh) 2019-02-15 2021-02-02 深圳市汇顶科技股份有限公司 语音增强方法、装置、设备及存储介质
CN109982179B (zh) * 2019-04-19 2023-08-11 努比亚技术有限公司 音频信号输出方法、装置、可穿戴设备及存储介质
CN110136731B (zh) 2019-05-13 2021-12-24 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
EP4005226A4 (en) 2019-09-12 2022-08-17 Shenzhen Shokz Co., Ltd. SYSTEMS AND METHODS FOR AUDIO SIGNAL GENERATION

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581970A (zh) * 2019-09-12 2021-03-30 深圳市韶音科技有限公司 用于音频信号生成的系统和方法
US11902759B2 (en) 2019-09-12 2024-02-13 Shenzhen Shokz Co., Ltd. Systems and methods for audio signal generation

Also Published As

Publication number Publication date
US11902759B2 (en) 2024-02-13
EP4005226A4 (en) 2022-08-17
US20220150627A1 (en) 2022-05-12
KR20220062598A (ko) 2022-05-17
BR112022004158A2 (pt) 2022-05-31
WO2021046796A1 (en) 2021-03-18
EP4005226A1 (en) 2022-06-01
JP2022547525A (ja) 2022-11-14

Similar Documents

Publication Publication Date Title
CN114424581A (zh) 用于音频信号生成的系统和方法
US9812147B2 (en) System and method for generating an audio signal representing the speech of a user
US9538301B2 (en) Device comprising a plurality of audio sensors and a method of operating the same
Aroudi et al. Cognitive-driven binaural beamforming using EEG-based auditory attention decoding
CN111833896A (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
Maruri et al. V-speech: Noise-robust speech capturing glasses using vibration sensors
US11184723B2 (en) Methods and apparatus for auditory attention tracking through source modification
CN106575211B (zh) 用于输出音频信号的设备及用于输出音频信号的方法
Reddy et al. Two microphones spectral-coherence based speech enhancement for hearing aids using smartphone as an assistive device
CN116569564A (zh) 骨传导耳机语音增强系统和方法
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
Sun et al. A supervised speech enhancement method for smartphone-based binaural hearing aids
CN114822565A (zh) 音频信号生成方法及系统、非暂时性计算机可读介质
Cheah et al. A Wearable Silent Speech Interface based on Magnetic Sensors with Motion-Artefact Removal.
US20230317092A1 (en) Systems and methods for audio signal generation
CN112911477A (zh) 包括个人化波束形成器的听力系统
US20230209283A1 (en) Method for audio signal processing on a hearing system, hearing system and neural network for audio signal processing
RU2804933C2 (ru) Системы и способы выработки аудиосигнала
CN112235679B (zh) 适用于耳机的信号均衡方法、处理器及耳机
CN112118511A (zh) 耳机降噪方法、装置、耳机及计算机可读存储介质
CN114127846A (zh) 语音跟踪收听设备
US20240005937A1 (en) Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model
WO2022141364A1 (zh) 生成音频的方法和系统
US20240144936A1 (en) System and method for single channel distant speech processing
Tokgoz Signal Processing Algorithms for Smartphone-Based Hearing Aid Platform; Applications and Clinical Testing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination