CN117095691B

CN117095691B - 语音数据集的构建方法、电子设备及存储介质

Info

Publication number: CN117095691B
Application number: CN202311324941.6A
Authority: CN
Inventors: 孙运平; 赵天宇; 吴鸣; 王聪; 杨军
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2023-12-19
Anticipated expiration: 2043-10-13
Also published as: CN117095691A

Abstract

本申请适用于计算机应用技术领域，提供了一种语音数据集的构建方法、电子设备及存储介质，该方法包括：获取目标语料对应的语音数据，其中，语音数据中包含目标语料对应的气导语音数据及骨导语音数据；对语音数据中的气导语音数据及骨导语音数据进行可用性评估，以确定语音数据对应的可用性指标；在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集。由此，通过对采集对象阅读语料时的气导语音数据及骨导语音数据进行实时采集并进行可用性评估，以保证加入语音数据集中的各个气导语音数据及骨导语音数据的质量，从而实现了气骨导语音数据集的构建，并保证了气骨导语音数据集的质量。

Description

语音数据集的构建方法、电子设备及存储介质

技术领域

本申请属计算机应用技术领域，尤其涉及一种语音数据集的构建方法、电子设备及计算机可读存储介质。

背景技术

近年来，可穿戴设备产业发展迅猛，其作为人类增强功能的基本组成部分现已被广泛使用在日常生活中，成为人们融入智慧生活的重要入口和应用终端。获取感知信息的设备是当前重点研究的主题，其中骨导技术作为听觉增强的重要手段，已被广泛用于助听器、智能耳机、智能眼镜等设备。

骨导语音是通过骨导传感器采集的说话人语音的振动信号，该信号通过声带激励并由人体内部骨骼以及相关组织传递到皮肤表面，具有天然的抗噪性能。在理论研究方面，骨导语音特性与说话人特征密切相关，与气导语音特征关系尚未清晰；在实际应用中，语音活动检测、语音增强等算法都需要依托准确的骨导语音来提升性能。然而骨导语音无法在客观评价中借助设备模拟产生，只能通过真人发声实测，但是公开可用的骨导语音数据集极少，并且测试部位、测试设备的不同会导致骨导语音差异大。因此，如何针对性地获取大量的气导语音和骨导语音同步数据是当前需要解决的问题。

发明内容

本申请实施例提供了一种语音数据集的构建方法、电子设备及计算机可读存储介质，可以解决如何针对性地获取大量的气导语音和骨导语音同步数据的问题。

第一方面，本申请实施例提供了一种语音数据集的构建方法，包括：获取目标语料对应的语音数据，其中，语音数据是利用语音采集设备对采集对象在预设采集环境中阅读目标语料时的语音进行采集生成的，语音数据中包含目标语料对应的气导语音数据及骨导语音数据；对语音数据中的气导语音数据及骨导语音数据进行可用性评估，以确定语音数据对应的可用性指标；在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集。

如此，通过对采集对象阅读语料时的气导语音数据及骨导语音数据进行实时采集，并通过对气导语音数据及骨导语音数据进行可用性评估，以保证加入语音数据集中的各个气导语音数据及骨导语音数据的质量，从而实现了气骨导语音数据集的构建，并保证了气骨导语音数据集的质量。

在第一方面一种可能的实现方式中，上述可用性指标包括气导语音数据与骨导语音数据之间的第一相干性指标；相应的，上述对语音数据中的气导语音数据及骨导语音数据进行可用性评估，以确定语音数据对应的可用性指标，包括：

对气导语音数据及骨导语音数据进行相干性分析，以确定气导语音数据与骨导语音数据之间的第一相干信号，其中，第一相干信号用于表示气导语音数据与骨导语音数据之间的相干系数随信号频率的变化关系；

根据第一相干信号，确定气导语音数据与骨导语音数据之间的第一相干性指标。

如此，由于对于统一采集对象对同一语料进行阅读时产生的语音进行采集，所生成的气导语音数据与骨导语音数据通常具有较高的相似性，因此通过对同时采集的气导语音信号及骨导语音信号进行相干性分析，以通过两者之间的相干性指标分析两者的相似性，确定当前获取到的气导语音数据及骨导语音数据的可靠性和可用性，并将可靠性高的语音数据加入语音数据集，从而保证了语音数据集的质量。

可选的，在第一方面另一种可能的实现方式中，上述第一相干性指标包括相干系数峰值及第一相干系数均值中的至少一种。

如此，由于语音信号之间的相干系数可以表示语音信号之间的相关性，因此，可以通过气导语音数据与骨导语音数据之间的相干系数进行分析，以评价气导语音数据与骨导语音数据之间的相似性，进而进一步提升了气骨导语音可用性评价的可靠性，进一步提升了语音数据集的质量。

可选的，在第一方面再一种可能的实现方式中，上述第一相干性指标包括相干系数峰值；相应的，上述在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集之前，还包括：

在气导语音数据与骨导语音数据之间的相干系数峰值大于第一系数阈值的情况下，确定相干系数峰值符合预设指标条件；

在气导语音数据与骨导语音数据之间的相干系数峰值小于或等于第一系数阈值的情况下，确定相干系数峰值未符合预设指标条件。

如此，由于气导语音数据与骨导语音数据之间的相干系数峰值越大，说明气导语音数据与骨导语音数据之间的相关性越高，从而说明气导语音数据与骨导语音数据的可用性越高，因此，通过第一系数阈值筛选出相干系数峰值较大的气导语音数据及骨导语音数据加入语音数据集，从而保证了语音数据集的质量。

可选的，在第一方面又一种可能的实现方式中，上述第一相干性指标包括所述第一相干系数均值；相应的，上述根据第一相干信号，确定气导语音数据与骨导语音数据之间的第一相干性指标，包括：

根据第一相干信号，将气导语音数据与骨导语音数据在第一参考频带内的相干系数均值，确定为气导语音数据与骨导语音数据之间的第一相干系数均值；

相应的，上述在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集之前，还包括：

在第一相干系数均值大于第二系数阈值的情况下，确定第一相干系数均值符合预设指标条件；

在第一相干系数均值小于或等于第二系数阈值的情况下，确定第一相干系数均值未符合预设指标条件。

如此，由于气导语音数据与骨导语音数据之间的相干系数均值，能够更加准确的反映气导语音数据与骨导语音数据之间的整体相关性，从而通过将气导语音数据与骨导语音数据之间的相干系数均值作为其中一个可用性指标，衡量语音数据的可用性，从而进一步提升了语音数据集的质量。

可选的，在第一方面又一种可能的实现方式中，上述对语音数据中的所述气导语音数据及骨导语音数据进行可用性评估，以确定语音数据对应的可用性指标之前，还包括：

获取目标语料对应的参考气导语音数据，其中，参考气导语音数据是在利用语音采集设备采集目标语料对应的语音数据的同时，利用参考气导传感器采集目标语料对应的气导语音数据。

如此，通过在语音采集设备外部设置高精度的气导传感器采集气导语音数据，以通过高质量的气导语音数据对语音采集设备采集的气导语音数据的可用性进行验证，从而进一步保证了加入语音数据集的语音数据的可用性，进一步提升了语音数据集的质量。

可选的，在第一方面另一种可能的实现方式中，上述可用性指标还包括气导语音数据与参考气导语音数据之间的第二相干性指标；相应的，上述根据第一相干信号，确定气导语音数据与骨导语音数据之间的第一相干性指标之后，还包括：

对气导语音数据及参考气导语音数据进行相干性分析，以确定气导语音数据与参考气导语音数据之间的第二相干信号，其中，第二相干信号用于表示气导语音数据与参考气导语音数据之间的相干系数随信号频率的变化关系；

根据第二相干信号，确定气导语音数据与参考气导语音数据之间的第二相干性指标。

如此，由于参考气导语音数据是通过专业的高准确度气导传感器采集的，因此参考气导语音数据的质量较高，可以用于验证语音采集设备采集的气导语音数据与骨导语音数据的可用性。从而，通过对气导语音数据及参考气导语音数据进行相干性分析，以通过两者之间的第二相干性指标验证气导语音数据的可用性，并联合气导语音数据与骨导语音数据之间的第一相干性指标验证骨导语音数据的可用性，从而在气导语音数据与参考气导语音数据之间的相关性较高时，可以证明气导语音数据的质量较高，而同时气导语音数据与骨导语音数据之间的相关性也较高时，可以间接证明骨导语音数据的质量也较高，从而通过将参考气导语音数据作为参考指标，进一步提升了气导语音数据及骨导语音数据可用性验证的准确性，进而进一步提升了语音数据集的质量。

可选的，在第一方面再一种可能的实现方式中，上述第二相干性指标包括第二相干系数均值；相应的，上述根据第二相干信号，确定气导语音数据与参考气导语音数据之间的第二相干性指标，包括：

根据第二相干信号，将气导语音数据与参考气导语音数据在第二参考频带内的相干系数均值，确定为气导语音数据与参考气导语音数据之间的第二相干系数均值；

相应的，在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集之前，还包括：

在第二相干系数均值大于第三系数阈值的情况下，确定第二相干系数均值符合预设指标条件；

在第二相干系数均值小于或等于第三系数阈值的情况下，确定第二相干系数均值未符合预设指标条件。

如此，由于气导语音数据与参考气导语音数据之间的相干系数越高，说明两者之间的相关性越高，并且两者之间的相干系数均值可以衡量两者之间的整体相关性，因此在气导语音数据与骨导语音数据之间的第二相干系数均值较大时，确定其符合预设指标条件，从而将质量较高的气导语音数据及骨导语音数据加入语音数据集中，进一步提升了语音数据集的质量。

可选的，在第一方面又一种可能的实现方式中，上述可用性指标还包括骨导语音信号对应的频域特征指标；相应的，上述对语音数据中的气导语音数据及骨导语音数据进行可用性评估，以确定语音数据对应的可用性指标，包括：

对骨导语音数据进行频域分析，以确定骨导语音数据对应的频谱；

根据骨导语音数据对应的频谱，确定骨导语音数据对应的频域特征指标。

如此，由于质量较高、没有噪声干扰的骨导语音数据具有较明显的频域特征，因此可以根据骨导语音对应的频域特征指标对骨导语音数据的可用性进行进一步验证，以进一步提升语音数据集的质量。

可选的，在第一方面又一种可能的实现方式中，上述频域特征指标包括频域峰值指标及频域能量指标中的至少一种。

可选的，在第一方面另一种可能的实现方式中，上述频域特征指标包括频域峰值指标；相应的，上述在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集之前，还包括：

根据骨导语音数据对应的频谱，确定频谱的峰值对应的参考频率点；

在参考频率点小于或等于第一频率阈值的情况下，确定频域峰值指标符合预设指标条件；

在参考频率点大于第一频率阈值的情况下，确定频域峰值指标未符合预设指标条件。

可选的，在第一方面再一种可能的实现方式中，上述频域特征指标包括频域能量指标；相应的，上述在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集之前，还包括：

根据骨导语音数据对应的频谱，确定骨导语音数据在第三参考频带内的参考信号能量及骨导语音数据的总信号能量；

在参考信号能量与总信号能量的比值大于或等于能量阈值的情况下，确定频域能量指标符合预设指标条件；

在参考信号能量与总信号能量的比值小于能量阈值的情况下，确定频域能量指标未符合预设指标条件。

如此，通过骨导语音数据在频域的峰值特征和能量特征，对骨导语音的可用性进行进一步验证，从而进一步提升了加入语音数据集的骨导语音数据及气导语音数据的质量，进一步提升了语音数据集的质量。

可选的，在第一方面又一种可能的实现方式中，上述对语音数据中的气导语音数据及骨导语音数据进行可用性评估，以确定语音数据对应的可用性指标之后，还包括：

在语音数据对应的可用性指标未符合预设指标条件的情况下，将语音数据丢弃。

如此，在语音数据对应的可用性指标未符合预设指标条件时，说明语音数据的质量较差，从而将其丢弃不加入语音数据集，从而保证语音数据集的质量。

在语音数据对应的可用性指标未符合预设指标条件的情况下，暂停语音数据采集，并发出采集异常预警信息。

如此，在语音数据对应的可用性指标不符合预设指标条件时，说明当前的采集环境或者语音采集设备出现了异常或故障，则可以暂停语音数据的采集并发出采集异常预警信息，以使用户可以对异常情况进行及时排查和修复，保证后续采集的语音数据的质量。

可选的，在第一方面另一种可能的实现方式中，上述语音采集设备包含气导传感器、骨导传感器及数据采样模块；相应的，上述获取目标语料对应的语音数据，包括：

利用气导传感器采集目标语料对应的原始气导语音，并同时利用骨导传感器采集目标语料对应的原始骨导语音；

利用数据采样模块以预设采样率对原始气导语音进行采样，以生成气导语音数据；

利用数据采样模块以预设采样率对原始骨导语音进行采样，以生成骨导语音数据。

如此，通过气导传感器与骨导传感器分别采集原始气导语音及原始骨导语音，并通过数据采样模块进行采样，以将采集的语音信号转换为数字信号。

可选的，在第一方面再一种可能的实现方式中，上述对语音数据中的气导语音数据及骨导语音数据进行可用性评估，以确定语音数据对应的可用性指标之前，还包括：

以第一临界频率对所述气导语音数据进行低通滤波处理；

以第二临界频率对骨导语音数据进行高通滤波处理。

如此，在获取到气导语音数据及骨导语音数据之后，分别对气导语音数据及骨导语音数据进行滤波处理，以去除气导语音数据及骨导语音数据中的噪声，从而进一步提升了语音数据集的质量。

可选的，在第一方面又一种可能的实现方式中，上述获取目标语料对应的语音数据之前，还包括：

获取预设采集环境对应的信噪比；

确定预设采集环境对应的信噪比大于或等于信噪比阈值。

如此，通过在正式的数据采集之前，保证采集环境的信噪比处于较高的水平（即保证采集环境中的噪声水平较低），从而降低了语音数据采集过程中的噪声干扰，进一步提升了采集的语音数据的质量，进而进一步保证了构建的语音数据集的质量。

利用语音采集设备对采集对象在预设采集环境中阅读至少一个语料时的语音进行采集，以生成各个语料对应的预采集语音数据，其中，预采集语音数据中包含语料对应的预采集气导语音数据及预采集骨导语音数据；

根据各个预采集语音数据，确定语音采集设备满足预设采集要求。

如此，通过在正式进行语音采集之前，先进行预采集，以通过预采集过程中采集的预采集语音数据对语音采集设备的工作状态进行评估，以在语音采集设备的工作状态不符合采集要求时及时对语音采集设备进行调整，并在语音采集设备满足采集要求才开始进行正式的语音采集，从而保证了语音数据采集的可靠性，进一步提升了构建的语音数据集的质量和可靠性。

可选的，在第一方面另一种可能的实现方式中，上述目标语料为预设语料库中的任一预设语料；相应的，上述预设语料库是通过以下方式生成的：

获取预设的语料生成规则，其中，语料生成规则包括语言类型、语料长度、发音规则、语法规则、语料数量中的至少一种；

根据预设的语料生成规则，生成多个预设语料，以构成预设语料库。

如此，通过预先构建用于语音采集的语料库，以保证最终构建的语音数据集的语音丰富度和规范性，进一步提升了构建的语音数据集的质量。

第二方面，本申请实施例提供了一种语音数据集的构建装置，包括：第一获取模块，用于获取目标语料对应的语音数据，其中，语音数据是利用语音采集设备对采集对象在预设采集环境中阅读目标语料时的语音进行采集生成的，语音数据中包含目标语料对应的气导语音数据及骨导语音数据；第一评估模块，用于对语音数据中的气导语音数据及骨导语音数据进行可用性评估，以确定语音数据对应的可用性指标；第一构建模块，用于在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集。

在第二方面一种可能的实现方式中，上述可用性指标包括气导语音数据与骨导语音数据之间的第一相干性指标；相应的，上述第一评估模块，包括：

第一分析单元，用于对气导语音数据及骨导语音数据进行相干性分析，以确定气导语音数据与骨导语音数据之间的第一相干信号，其中，第一相干信号用于表示气导语音数据与骨导语音数据之间的相干系数随信号频率的变化关系；

第一确定单元，用于根据第一相干信号，确定气导语音数据与骨导语音数据之间的第一相干性指标。

如此，由于对于统一采集对象对同一语料进行阅读时产生的语音进行采集，所生成的气导语音数据与骨导语音数据通常具有较高的相似性，因此通过对同时采集的气导语音信号及骨导语音信号进行相干性分析，以通过两者之间的相干性指标分析两者的相似性，从而确定当前获取到的气导语音数据及骨导语音数据的可靠性和可用性，并将可靠性高的语音数据加入语音数据集，从而保证了语音数据集的质量。

可选的，在第二方面另一种可能的实现方式中，上述第一相干性指标包括相干系数峰值及第一相干系数均值中的至少一种。

如此，由于语音信号之间的相干系数可以表示语音信号之间的相关性，因此，可以通过气导语音数据与骨导语音数据之间的相干系数进行分析，以评价气导语音数据与骨导语音数据之间的相似性，进而进一步提升气骨导语音可用性评价的可靠性，进一步提升语音数据集的质量。

可选的，在第二方面再一种可能的实现方式中，上述第一相干性指标包括相干系数峰值；相应的，上述装置，还包括：

第一确定模块，用于在气导语音数据与骨导语音数据之间的相干系数峰值大于第一系数阈值的情况下，确定相干系数峰值符合预设指标条件；

第二确定模块，用于在气导语音数据与骨导语音数据之间的相干系数峰值小于或等于第一系数阈值的情况下，确定相干系数峰值未符合预设指标条件。

可选的，在第二方面又一种可能的实现方式中，上述第一相干性指标包括所述第一相干系数均值；相应的，上述第一确定单元，具体用于：

相应的，上述装置，还包括：

第三确定模块，用于在第一相干系数均值大于第二系数阈值的情况下，确定第一相干系数均值符合预设指标条件；

第四确定模块，用于在第一相干系数均值小于或等于第二系数阈值的情况下，确定第一相干系数均值未符合预设指标条件。

可选的，在第二方面又一种可能的实现方式中，上述装置，还包括：

第二获取模块，用于获取目标语料对应的参考气导语音数据，其中，参考气导语音数据是在利用语音采集设备采集目标语料对应的语音数据的同时，利用参考气导传感器采集目标语料对应的气导语音数据。

如此，通过在语音采集设备外部设置高质量的气导传感器采集气导语音数据，以通过高质量的气导语音数据对语音采集设备采集的气导语音数据的可用性进行验证，从而进一步保证了加入语音数据集的语音数据的可用性，进一步提升了语音数据集的质量。

可选的，在第二方面另一种可能的实现方式中，上述可用性指标还包括气导语音数据与参考气导语音数据之间的第二相干性指标；相应的，上述第一评估模块，还包括：

第二分析单元，用于对气导语音数据及参考气导语音数据进行相干性分析，以确定气导语音数据与参考气导语音数据之间的第二相干信号，其中，第二相干信号用于表示气导语音数据与参考气导语音数据之间的相干系数随信号频率的变化关系；

第二确定单元，用于根据第二相干信号，确定气导语音数据与参考气导语音数据之间的第二相干性指标。

可选的，在第二方面再一种可能的实现方式中，上述第二相干性指标包括第二相干系数均值；相应的，上述第二确定单元，具体用于：

相应的，上述装置，还包括：

第五确定模块，用于在第二相干系数均值大于第三系数阈值的情况下，确定第二相干系数均值符合预设指标条件；

第六确定模块，用于在第二相干系数均值小于或等于第三系数阈值的情况下，确定第二相干系数均值未符合预设指标条件。

可选的，在第二方面又一种可能的实现方式中，上述可用性指标还包括骨导语音信号对应的频域特征指标；相应的，上述第一评估模块，包括：

第三确定单元，用于对骨导语音数据进行频域分析，以确定骨导语音数据对应的频谱；

第四确定单元，用于根据骨导语音数据对应的频谱，确定骨导语音数据对应的频域特征指标。

可选的，在第二方面又一种可能的实现方式中，上述频域特征指标包括频域峰值指标及频域能量指标中的至少一种。

可选的，在第二方面另一种可能的实现方式中，上述频域特征指标包括频域峰值指标；相应的，上述装置，还包括：

第七确定模块，用于根据骨导语音数据对应的频谱，确定频谱的峰值对应的参考频率点；

第八确定模块，用于在参考频率点小于或等于第一频率阈值的情况下，确定频域峰值指标符合预设指标条件；

第九确定模块，用于在参考频率点大于第一频率阈值的情况下，确定频域峰值指标未符合预设指标条件。

可选的，在第二方面再一种可能的实现方式中，上述频域特征指标包括频域能量指标；相应的，上述装置，还包括：

第十确定模块，用于根据骨导语音数据对应的频谱，确定骨导语音数据在第三参考频带内的参考信号能量及骨导语音数据的总信号能量；

第十一确定模块，用于在参考信号能量与总信号能量的比值大于或等于能量阈值的情况下，确定频域能量指标符合预设指标条件；

第十二确定模块，用于在参考信号能量与总信号能量的比值小于能量阈值的情况下，确定频域能量指标未符合预设指标条件。

丢弃模块，用于在语音数据对应的可用性指标未符合预设指标条件的情况下，将语音数据丢弃。

暂停模块，用于在语音数据对应的可用性指标未符合预设指标条件的情况下，暂停语音数据采集，并发出采集异常预警信息。

可选的，在第二方面另一种可能的实现方式中，上述语音采集设备包含气导传感器、骨导传感器及数据采样模块；相应的，上述第一获取模块，包括：

第一采集单元，用于利用气导传感器采集目标语料对应的原始气导语音，并同时利用骨导传感器采集目标语料对应的原始骨导语音；

第一采样单元，用于利用数据采样模块以预设采样率对原始气导语音进行采样，以生成气导语音数据；

第二采样单元，用于利用数据采样模块以预设采样率对原始骨导语音进行采样，以生成骨导语音数据。

可选的，在第二方面再一种可能的实现方式中，上述装置，还包括：

第一滤波模块，用于以第一临界频率对所述气导语音数据进行低通滤波处理；

第二滤波模块，用于以第二临界频率对骨导语音数据进行高通滤波处理。

第三获取模块，用于获取预设采集环境对应的信噪比；

第十三确定模块，用于确定预设采集环境对应的信噪比大于或等于信噪比阈值。

第一采集模块，用于利用语音采集设备对采集对象在预设采集环境中阅读至少一个语料时的语音进行采集，以生成各个语料对应的预采集语音数据，其中，预采集语音数据中包含语料对应的预采集气导语音数据及预采集骨导语音数据；

第十四确定模块，用于根据各个预采集语音数据，确定语音采集设备满足预设采集要求。

如此，通过在正式进行语音采集之前，先进行预采集，以巩固预采集过程中采集的预采集语音数据对语音采集设备的工作状态进行评估，以在语音采集设备的工作状态不符合采集要求时及时对语音采集设备进行调整，并在语音采集设备满足采集要求才开始进行正式的语音采集，从而保证了语音数据采集的可靠性，进一步提升了构建的语音数据集的质量和可靠性。

可选的，在第二方面另一种可能的实现方式中，上述目标语料为预设语料库中的任一预设语料；相应的，上述预设语料库是通过以下方式生成的：

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现如前所述的语音数据集的构建方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如前所述的语音数据集的构建方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如前所述的语音数据集的构建方法。

上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的语音数据集的构建方法的流程示意图；

图2是本申请一实施例提供的一种语音采集系统的结构示意图；

图3是本申请另一实施例提供的一种语音数据集的构建方法的流程示意图；

图4是本申请一实施例提供的一种女性说话时气导语音数据与骨导语音数据之间的第一相干信号及骨导语音数据与参考气导语音数据之间的相干信号的波形示意图；

图5是本申请一实施例提供的一种男性说话时气导语音数据与骨导语音数据之间的第一相干信号及骨导语音数据与参考气导语音数据之间的相干信号的波形示意图；

图6是本申请再一实施例提供的一种语音数据集的构建方法的流程示意图；

图7是本申请一实施例提供的一种高质量气导语音数据与对应的参考气导语音数据之间的第二相干信号的波形示意图；

图8是本申请又一实施例提供的一种语音数据集的构建方法的流程示意图；

图9是本申请一实施例提供的一种男性采集对象对应的高质量气导语音数据、参考气导语音数据及多个点位的骨导语音数据对应的频谱图；

图10是本申请一实施例提供的一种女性采集对象对应的高质量气导语音数据、参考气导语音数据及多个点位的骨导语音数据对应的频谱图；

图11是本申请又一实施例提供的一种语音数据集的构建方法的流程示意图；

图12是本申请一实施例提供的语音数据集的构建装置的结构示意图；

图13是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面参考附图对本申请提供的语音数据集的构建方法、装置、电子设备、存储介质及计算机程序进行详细描述。

请参考图1，图1是本申请一实施例提供的语音数据集的构建方法的流程示意图，该方法可以包括如下部分或者全部内容：

步骤101，获取目标语料对应的语音数据，其中，语音数据是利用语音采集设备对采集对象在预设采集环境中阅读目标语料时的语音进行采集生成的，语音数据中包含目标语料对应的气导语音数据及骨导语音数据。

其中，目标语料，可以是指语音采集设备进行语音数据采集时，采集对象正在阅读的语料；目标语料可以为一个完整的句子。需要说明的是，对采集对象进行语音采集时采集对象阅读的各个语料可以是随机选取的语料（如文章、从网络上搜集的各类语句等），也可以是通过一定的规则生成的专用于生成本申请的语音数据库的语料，以保证最终构建的语音数据库的丰富性和规范性等。

其中，语音采集设备，可以是任意可以同时采集气导语音数据和骨导语音数据的语音采集设备。比如，本申请实施例中的语音采集设备可以是任意包含气导传感器和骨导传感器的语音采集设备，以通过气导传感器采集气导语音数据，并通过骨导传感器采集骨导语音数据。

举例来说，本申请实施例的语音采集设备可以为具有气导传感器及骨导传感器的蓝牙耳机等现有的成形产品；又如，本申请实施例的语音采集设备也可以为为了实现本申请实施例中的语音数据采集，而制造的样本产品，等等，本申请实施例对此不做限定。

其中，采集对象，可以是指当前正在佩戴语音采集设备进行语音采集的人员。

需要说明的是，本申请实施例可以按照预设的筛选规则挑选出多个人员分别作为采集对象进行语音采集，以使最终构建的语音数据集中可以包含各类人群、各种音色的语音数据，以保证语音数据集的数据丰富程度。其中，预设的筛选规则中可以包含年龄、性别、身高、体重、健康状况、人数等人员信息；比如，可以采用以下规则挑选采集对象：年龄分布在20~40岁、无耳部疾病的健康人员、抗压能力较强（保证在语音采集时的专注程度）；另外，采集对象要求普通话水平良好，口齿清晰流利，且近期没有上呼吸道疾病；男女比例接近1:1；人员数量可以根据实际需要确定（如100位）。

其中，目标语料对应的气导语音数据，可以是指利用气导传感器采集的采集对象阅读目标语料时的语音数据；目标语料对应的骨导语音数据，可以是指利用骨导传感器采集的采集对象阅读目标语料时的语音数据。

在本申请实施例中，可以使得每个采集对象依次佩戴语音采集设备阅读预先准备好的各个语料，当采集对象阅读完一个语料时，即可以将该语料确定为目标语料，并获取该目标语料对应的语音数据，以对该语音数据进行可用性评估，进而判断该语音数据是否可以加入语音数据集。以此类推，可以对每个采集对象阅读的每个语料均进行相同的操作，从而最终构建出包含大量气骨导语音数据的语音数据集。

需要说明的是，本申请实施例的语音数据集的构建方法可以搭载在任意类型的电子设备中，并且可以将该电子设备与语音采集设备进行连接（可以为有线连接，也可以为无线连接），以在语音采集设备每采集到一个目标语料对应的语音数据之后，该电子设备即可以从语音采集设备获取到该目标语料对应的语音数据。

举例来说，本申请实施例的语音数据集的构建方法可以通过应用程序的方式实现，并安装在电子设备中，如此，电子设备在运行该应用程序或者触发应用程序中相应的控件（如开始语音采集、开始数据集构建等控件）之后，即可在语音采集过程中实时获取语音采集设备采集的语音数据并进行后续处理。

作为一种可能的实现方式，语音采集设备中可以包括一个气导传感器及一个骨导传感器，则目标语料对应的语音数据中可以包括一个通道的气导语音数据及一个通道的骨导语音数据。

作为一种可能的实现方式，语音采集设备中还可以包括多个气导传感器及多个骨导传感器，则目标语料对应的语音数据中则可以包括多个通道的气导语音数据及多个通道的骨导语音数据，即每个气导传感器可以分别采集一个通道的气导语音数据，以及每个骨导传感器可以分别采集一个通道的骨导语音数据。比如，语音采集设备为双耳蓝牙耳机，且一个蓝牙耳机中包含三个气导传感器及一个骨导传感器，即两个蓝牙耳机中包含六个气导传感器及两个骨导传感器，则对于一个目标语料，该双耳蓝牙耳机采集的语音数据共包含八个语音通道，其中，包含六个通道的气导语音数据及两个通道的骨导语音数据。

进一步的，由于气导传感器及骨导传感器采集的语音数据为模拟信号，因此，可以将采集的模拟信号形式的气骨导语音转换为数字信息再进行处理，以便于数据处理，并保证构建的语音数据集中的语音数据均为数字信息，以保证语音数据集的可用性。即在本申请实施例一种可能的实现方式中，上述语音采集设备可以包含气导传感器、骨导传感器及数据采样模块；相应的，上述步骤101，可以包括：

利用气导传感器采集所述目标语料对应的原始气导语音，并同时利用骨导传感器采集目标语料对应的原始骨导语音；

如图2所示，为本申请实施例提供的一种语音采集系统的结构示意图，其中，语音采集设备中可以包括气导传感器及骨导传感器，分别用于同步采集原始气导语音及原始骨导语音，并将采集到的原始气导语音及原始骨导语音输入到数据采样模块以预设采样率进行采样，以分别生成气导语音数据及骨导语音数据，从而实现气骨导语音的模数转换。

需要说明的是，实际使用时，预设采样率可以根据实际需要及具体的应用场景确定，本申请实施例对此不做限定。比如，预设采样率可以为16KHz。

作为一种可能的实现方式，如图2所示，语音采集系统中还可以包括供电模块，以用于对语音采集设备进行供电；并且，语音采集系统中还可以包括数据存储模块，以采用预设文件格式对模数转换后的语音数据进行存储。其中，预设文件格式可以为任意的音频格式，本申请实施例对此不做限定。比如，预设文件格式可以为波形音频文件（waveformaudio file，WAV）格式。

需要说明的是，图2所示的语音采集系统仅为示例性的，不能视为对本申请的限制。实际使用时，图2中的供电模块、数据采样模块及数据存储模块等可以是处于语音采集设备之外的独立器件，也可以是集成在语音采集设备内部的器件，本申请实施例对此不做限定。

进一步的，为了保证采集的语音数据的质量，在进行正式的语音采集之前，可以根据采集环境要求对采集环境的噪声水平进行确认，保证采集环境的信噪比处于较高的水平（即保证采集环境中的噪声水平较低），以降低语音数据采集过程中的噪声干扰。即在本申请实施例一种可能的实现方式中，上述步骤101之前，还可以包括：

获取预设采集环境对应的信噪比；

确定预设采集环境对应的信噪比大于或等于信噪比阈值。

作为一种可能的实现方式，可以在进行正式的语音采集之前，在预设采集环境处于安静环境时，对预设采集环境进行噪声采集，并确定预设采集环境的噪声信号对应的噪声信号功率；之后在预设采集环境中播放特定语音并进行信号采集，以确定在预设采集环境中播放特定语音时的有效信号功率，之后根据噪声信号功率及有效信号功率确定预设采集环境对应的信噪比，即可以将有效信号功率与噪声信号功率的比值，确定为预设采集环境对应的信噪比。其中，预设采集环境对应的信噪比越大，则说明预设采集环境中的噪声水平越低，即在预设采集环境中进行语音采集引入的噪声干扰越小。因此，可以在确定预设采集环境对应的信噪比大于或等于信噪比阈值时，确定预设采集环境符合采集要求，并可以进行正式的语音采集；并在预设采集环境对应的信噪比小于信噪比阈值时，确定预设采集环境不符合采集要求，则可以更换预设采集环境或者对预设采集环境中的设施进行调整，直至预设采集环境对应的信噪比符合采集要求，从而进一步提升采集的语音数据的质量，进而进一步保证构建的语音数据集的质量。

举例来说，在本申请实施例的语音数据集的构建方法通过应用程序的形式实现时，还可以在应用程序中设计采集环境测试功能，以实现上述对预设采集环境的信噪比进行测试的方法，并通过应用程序向用户展示预设采集环境对应的信噪比，以使用户根据信噪比调整预设采集环境或者进行正式的语音采集。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，确定信噪比阈值的具体取值，本申请实施例对此不做限定。比如，信噪比阈值可以为40dB、50dB等。

进一步的，为了进一步提升采集的语音数据的质量，在进行正式的语音数据采集之前进行预采集实验，以保证语音采集设备处于良好的工作状态，从而进一步提升语音数据集的质量和可靠性。即在本申请实施例一种可能的实现方式中，上述步骤101之前，还可以包括：

作为一种可能的实现方式，在预采集过程中，可以对采集对象进行一定时长的预采集，或者使得采集对象阅读一个或多个语料，并生成每个语料对应的预采集语音数据，预采集语音数据中可以包括语料对应的气导语音数据及骨导语音数据；之后，则可以根据各个预采集语音数据，确定语音采集设备是否满足预设采集要求。

作为一种示例，可以根据每个预采集语音数据中预采集气导语音数据与预采集骨导语音数据之间的时延，确定气导语音数据及骨导语音数据是否同步采集，进而确定语音采集设备是否放置平稳、电路板等结构是异常等。其中，若预采集气导语音数据与预采集骨导语音数据之间的时延大于时延阈值，则可以确定语音采集设备存在异常，从而可以发出异常预警信息，以使用户可以对语音采集设备的放置情况、电路板结构等进行查看、调整等，以使语音采集设备恢复正常，从而保证正式语音采集时的语音质量；若预采集气导语音数据与预采集骨导语音数据之间的时延小于或等于时延阈值，则可以确定语音采集设备未存在异常，符合预设采集要求，从而可以进行正式语音采集。

需要说明的是，如果在预采集阶段只采集了一个预采集语音数据，则可以直接根据该预采集语音数据中预采集气骨导语音数据之间的时延，判断语音采集设备是否符合预设采集要求；如果在预采集阶段采集了多个预采集语音数据，则可以确定出各个预采集语音数据中预采集气骨导语音数据之间的时延，并确定出各个预采集语音数据中预采集气骨导语音数据之间的时延均值，进而根据该时延均值与时延阈值之间的关系，判断语音采集设备是否符合预设采集要求。

再者，如果语音采集设备中包含多个气导传感器及多个骨导传感器，即预采集语音数据中包含多个通道的预采集气导语音数据及多个通道的预采集骨导语音数据，则对于一个预采集语音数据，则可以分别确定出每两个通道之间的时延，并将各个时延的均值确定为该预采集语音数据对应的气骨导语音数据之间的时延。若预采集语音数据存在多个，则可以根据前述求得的各个预采集语音数据对应的气骨导语音数据之间的时延，继续求得各个预采集语音数据对应的气骨导语音数据之间的时延均值。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，确定时延阈值的具体取值，本申请实施例对此不做限定。比如，时延阈值可以为10ms。

作为一种示例，由于不同采集对象的发音习惯、声音大小等均存在差异，因此为了最终构建的语音数据集中的各个语音数据的数据增益均处于相同水平，在正式进行语音采集之前，还可以对语音采集设备中的气导传感器的采集参数进行调整。因此，可以确定预采集气导语音数据的数据增益是否处于预设数据增益范围，若处于预设数据增益范围，则可以确定气导传感器的当前参数符合预设采集要求，从而无需调整；若未处于预设数据增益范围，则可以确定气导传感器的采集参数不符合预设采集要求，从而可以对气导传感器的采集参数进行调整，以使气导传感器采集的气导语音数据的数据增益处于预设数据增益范围，从而通过在每次正式采集开始之前调整气导传感器的采集参数，达到使得不同采集对象的语音数据的数据增益处于一定波动范围内的目的。

需要说明的是，如果在预采集阶段仅采集了一个预采集语音数据，则可以直接根据该预采集语音数据中的预采集气导语音数据对应的数据增益，确定气导传感器的采集参数是否符合预设采集要求；若在预采集阶段采集了多个预采集语音数据，则可以将各个预采集气导语音数据对应的数据增益均值，确定气导传感器的采集参数是否符合预设采集要求。

再者，如果语音采集设备中包含多个气导传感器，即预采集语音数据中包含多个通道的预采集气导语音数据，则可以根据每个气导传感器对应的预采集气导语音数据的数据增益，分别确定每个气导传感器是否符合预设采集要求。举例来说，如果语音采集设备中包含三个气导传感器A、B、C，假设预采集阶段仅采集了一个预采集语音数据，则可以根据气导传感器A采集的预采集气导语音数据对应的数据增益与预设数据增益范围的关系，判断气导传感器A是否符合预设采集要求，并采用相同的方式分别确定气导传感器B、C是否符合预设采集要求；假设预采集阶段采集了N（N为大于1的整数）个预采集语音数据，则可以根据气导传感器A采集的N个预采集气导语音数据对应的数据增益均值与预设数据增益范围的关系，确定气导传感器A是否符合预设采集要求，以此类推，可以采用相同的方式分别确定气导传感器B、C是否符合预设采集要求。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，确定预设数据增益范围的具体取值，以将各个采集对象对应的语音数据的数据增益维持在一定波动范围之内（如波动范围不超过3dB），即将最终构建的语音数据集中各个语音数据的数字增益维持在一定波动范围之内。

作为一种示例，为了保证语音采集设备中的骨导传感器符合预设采集要求，如保证骨导传感器佩戴无误、尽可能佩戴稳定、与皮肤紧密接触等，可以根据预采集阶段采集的各个预采集语音数据中的预采集骨导语音数据对应的幅度波动范围，确定骨导传感器是否符合预设采集要求。其中，如各个预采集骨导语音数据对应的幅度波动范围小于或等于幅度波动范围阈值，则可以确定骨导传感器符合预设采集要求；若各个预采集骨导语音数据对应的幅度波动范围大于幅度波动范围阈值，则可以确定骨导传感器不符合预设采集要求，从而可以对骨导传感器的佩戴进行调整。

需要说明的是，若语音采集设备中包含多个骨导传感器，即预采集语音数据中包含多个通道的预采集骨导语音数据，则可以根据每个骨导传感器对应的预采集骨导语音数据的幅度波动范围，分别确定每个骨导传感器是否符合预设采集要求。举例来说，如果语音采集设备中包含两个骨导传感器A、B，假设预采集阶段采集N个预采集语音数据，则可以根据骨导传感器A采集的N个预采集骨导语音数据对应的复制波动范围与幅度波动范围阈值的关系，确定骨导传感器A是否符合预设采集要求，以此类推，可以采用相同的方式分别确定骨导传感器B是否符合预设采集要求。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，确定幅度波动范围阈值的具体取值，本申请实施例对此不做限定。比如，幅度波动范围阈值可以为3dB。

作为一种可能的实现方式，还可以在预采集阶段根据各个预采集语音数据的响度，对采集对象的发音响度进行调整，以保证语音数据集的响度一致性。在本申请实施例中，可以确定各个预采集语音数据之间的响度波动范围，并在各个预采集语音数据之间的响度波动范围小于或等于响度波动范围阈值时，确定采集对象的发音响度符合预设采集要求；以及在各个预采集语音数据之间的响度波动范围大于响度波动范围阈值时，确定采集对象的发音响度不符合预设采集要求，并可以对采集对象对应的发音响度进行调整，使得采集对象在阅读各个语料时尽量保持声音高低一致、声音大小没有明显起伏，以保证最终构建的语音数据集的响度一致性。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，确定响度波动范围阈值的具体取值，本申请实施例对此不做限定。比如，响度波动范围阈值可以为3dB。

进一步的，为了保证最终构建的语音数据集的语音丰富度和规范性，进一步提升构建的语音数据集的质量，还可以预先生成用于语音采集的预设语料库，并使得每个采集人员均依次阅读预设语料库中的所有预设语料并进行语音采集，以对每个采集对象阅读各个预设语料时采集的语音数据进行处理。即在本申请实施例一种可能的实现方式中，上述目标语料可以为预设语料库中的任一预设语料；相应的，上述预设语料库可以是通过以下方式生成的：

其中，语言类型，可以是指预设语料库中的各个预设语料需要满足的语言类型，可以包括世界上的任意一种或多种语种。比如，汉语、英语等。

其中，语料长度，可以是指预设语料库中的各个预设语料包含的字数或词语数量。需要说明的是，实际使用时，语料长度可以根据实际需要及具体的应用场景，将语料长度设置为适中或较小的数值，以使预设语料易于阅读，从而保证采集的语音数据的质量。比如，假设语言类型为汉语，则语料长度可以为6-8个字。

其中，发音规则、语法规则，可以是指预设语料库中的各个预设语料需要满足的发音规则及语法规则。比如，在语言类型为汉语时，发音规则中可以包含预设语料库中所有预设语料包含的声母占比及韵母占比，以使预设语料库符合音节覆盖的全面性、多样性、均衡性以及训练和测试数据的划分等要求，如发音规则可以为声母占比及韵母占比均大于或等于90%；语法规则可以包括语气自然、语法结构平衡等。

另外，关于上例中提及的声母占比及韵母占比的解释如下：在语言类型为汉语时，汉语拼音中共包括声母21个、韵母38个，对已生成的预设语料库中的各个预设语料的音节进行统计，确定预设语料库中出现了所有的声母，并出现了35个韵母，则可以确定该预设语料库包含的声母占比为21/21=100%，该预设语料库包含的韵母占比为35/38=92%。

其中，语料数量，可以是指期望预设语料库中包含的预设语料的数量。实际使用时，可以根据实际需要及具体的应用场景，确定语料数量的具体取值，本申请实施例对此不做限定。

作为一种可能的实现方式，在根据实际的应用需求，确定出预设的语料生成规则之后，则可以将预设的语料生成规则输入语料生成模型，以利用语料生成模型生成符合预设的语料生成规则的多个预设语料，以构成预设语料库。

需要说明的是，实际使用时，可以采用任意的语料生成模型进行语料生成，本申请实施例对此不做限定。

步骤102，对语音数据中的气导语音数据及骨导语音数据进行可用性评估，以确定语音数据对应的可用性指标。

其中，语音数据对应的可用性指标，可以用于衡量语音数据中的气导语音数据及骨导语音数据的可用性和质量。

在本申请实施例中，由于在语音采集过程中，采集人员的位置变动、语音采集设备的佩戴不合适、语音采集设备发生故障、预设采集环境的噪声水平变化等原因，都可能导致采集的语音数据的质量变差，从而使得语音数据不可用；因此，在获取到每个目标语料对应的语音数据之后，可以对目标语料对应的语音数据进行可用性评估，以判断是否可以将目标语料对应的语音数据加入语音数据集，以保证语音数据集的质量。

作为一种可能的实现方式，如果目标语料对应的语音数据中包含多个通道的气导语音数据及多个通道的骨导语音数据，则可以分别对每个通道的气导语音数据及骨导语音数据进行可用性评估，以确定每个通道的气导语音数据对应的可用性指标，以及每个骨导语音数据对应的可用性指标。

进一步的，由于语音采集设备采集的语音数据可能存在一定的噪声，因此为了进一步提升对语音数据进行可用性评估的可靠性，以及进一步提升最终构建的语音数据集的质量，还可以在对语音数据进行可用性评估之前，对语音数据进行滤波处理，以去除语音数据中的噪声。即在本申请实施例一种可能的实现方式中，上述步骤102之前，还可以包括：

以第一临界频率对气导语音数据进行低通滤波处理；

以第二临界频率对骨导语音数据进行高通滤波处理。

作为一种可能的实现方式，由于气导语音数据是通过空气传播的，因此噪声通常在高频段、且过于高频的声音也不在可听声的频率范围；并且，骨导语音数据是通过人体内部骨骼以及相关组织传递到皮肤表面的，人体内部骨骼以及相关组织产生的噪声通常在低频段，因此，可以以较高的第一临界频率对气导语音数据进行低通滤波处理，以将气导语音数据中高于第一临界频率的噪声滤除，并可以以较低的第二临界频率对骨导语音数据进行高通滤波处理，以将骨导语音数据中低于第一临界频率的噪声滤除。

需要说明的是，实际使用时，可以根据实际需求及具体的应用场景，以及可听声的频率范围、骨导传感器的频响特性等因素，确定第一临界频率即第二临界频率的具体取值，本申请实施例对此不做限定。比如，第一临界频率可以为4000Hz，第二临界频率可以为20Hz。

步骤103，在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集。

在本申请实施例中，若确定语音数据对应的可用性指标符合预设指标条件，则可以确定该语音数据中的气导语音数据及骨导语音数据的质量均较高，从而可以加入语音数据集。

作为一种可能的实现方式，若语音数据中包含多个通道的气导语音数据及多个通道的骨导语音数据，则可以在各个通道的气导语音数据及各个通道的骨导语音数据对应的可用性指标均符合预设指标条件时，确定语音数据对应的可用性指标符合预设指标条件；若任一通道的气导语音数据或任一通道的骨导语音数据对应的可用性指标不符合预设指标条件，则可以确定该语音数据不符合预设指标条件。

作为一种可能的实现方式，若语音数据中包含多个通道的气导语音数据及多个通道的骨导语音数据，且语音数据对应的可用性指标可以通过数值来表示，则可以将各个通道的气导语音数据及各个通道的骨导语音数据对应的可用性指标的均值，确定为该语音数据对应的可用性指标，并在该语音数据对应的可用性指标符合预设指标条件时，将该语音数据加入语音数据集。

进一步的，由于若语音数据对应的可用性指标不符合预设指标条件，则可以确定语音数据的质量较差，从而可以将该语音数据丢弃，不参与语音数据集的构建。即在语音数据对应的可用性指标未符合预设指标条件的情况下，可以将语音数据丢弃。

进一步的，如果语音数据对应的可用性指标不符合预设指标条件，还可以提醒用户对预设采集环境或语音采集设备进行排查，以及时发现影响语音采集质量的原因，以不影响后续的语音采集。即在本申请实施例一种可能的实现方式中，上述步骤102之后，还可以包括：

作为一种可能的实现方式，若语音数据对应的可用性指标不符合预设指标条件，则可以确定该语音数据的质量较差，从而可以暂停语音数据的采集，并发出采集异常预警信息，以提醒用户对预设采集环境、语音采集设备等进行检查，以排除故障或其他干扰因素，从而提升后续采集的语音数据的质量，进而进一步保证最终构建的语音数据集的质量。

本申请实施例提供的语音数据集的构建方法，通过对采集对象阅读语料时的气导语音数据及骨导语音数据进行实时采集，并通过对气导语音数据及骨导语音数据进行可用性评估，以保证加入语音数据集中的各个气导语音数据及骨导语音数据的质量，从而实现了气骨导语音数据集的构建，并保证了气骨导语音数据集的质量。

下面结合图3，对本申请实施例提供的语音数据集的构建方法进行进一步说明。

图3示出了本申请实施例提供的另一种语音数据集的构建方法的流程示意图。

如图3所示，该语音数据集的构建方法，包括以下步骤：

步骤301，获取目标语料对应的语音数据，其中，语音数据是利用语音采集设备对采集对象在预设采集环境中阅读目标语料时的语音进行采集生成的，语音数据中包含目标语料对应的气导语音数据及骨导语音数据。

上述步骤301的具体实现过程及原理，可以参照上述实施例的详细描述，此次不再赘述。

步骤302，对气导语音数据及骨导语音数据进行相干性分析，以确定气导语音数据与骨导语音数据之间的第一相干信号。

其中，第一相干信号，可以用于表示气导语音数据与骨导语音数据之间的相干系数随信号频率的变化关系。

在本申请实施例中，由于气导传感器与骨导传感器的位置相近，因此对于同一目标语料对应的气导语音数据及骨导语音数据来说，两者之间应当具有较高的相关性。也就是说，如果目标语料对应的气导语音数据及骨导语音数据之间的相关性越高，则可以说明该语音数据的质量越高；如果目标语料对应的气导语音数据及骨导语音数据之间的相关性越低，则可以说明该语音数据的质量越低。而信号之间的相干系数可以用于衡量信号之间的相关性。因此本申请实施例可以对语音数据中的气导语音数据与骨导语音数据进行相干性分析，以确定气导语音数据与骨导语音数据之间的第一相干信号，以获得气导语音数据与骨导语音数据之间的相干系数随信号频率的变化关系。其中，可以通过如下公式确定气导语音数据与骨导语音数据之间的第一相干信号：

其中，为气导语音数据与骨导语音数据之间的第一相干信号，即气导语音数据与骨导语音数据之间的相干系数，/>为气导语音数据与骨导语音数据之间的互功率谱密度，/>为气导语音数据的自功率谱密度，/>为骨导语音数据的自功率谱密度，f为信号频率。

由上述公式可以看出，第一相干信号的取值范围为[0, 1]，且气导语音数据与骨导语音数据之间的相干系数越高，说明气导语音数据与骨导语音数据之间的相关性越高，即气导语音数据与骨导语音数据的质量越高。

作为一种可能的实现方式，如果目标语料对应的语音数据中包含多个通道的气导语音数据及多个通道的骨导语音数据，则可以分别对每个通道的气导语音数据与各个骨导语音数据进行相干性分析，以确定每个通道的气导语音数据分别与各个骨导语音数据之间的第一相干信号。

举例来说，假设语音采集设备中包含三个气导传感器及一个骨导传感器，即语音数据中包含三个通道的气导语音数据A、B、C，及一个通道的骨导语音数据D，从而可以依次计算出气导语音数据A与骨导语音数据D之间的第一相干信号、气导语音数据B与骨导语音数据D之间的第一相干信号，以及气导语音数据C与骨导语音数据D之间的第一相干信号。

步骤303，根据第一相干信号，确定气导语音数据与骨导语音数据之间的第一相干性指标。

其中，第一相干性指标，可以包括相干系数峰值及第一相干系数均值中的至少一种。

需要说明的是，气导语音数据与骨导语音数据之间的相干系数峰值，可以是指气导语音数据与骨导语音数据之间的第一相干信号的峰值；第一相干均值，可以是指气导语音数据与骨导语音数据在一定频带内的相干系数的均值。

如图4所示，为本申请实施例提供的一种女性说话时气导语音数据与骨导语音数据之间的第一相干信号及骨导语音数据与参考气导语音数据之间的相干信号的波形示意图；如图5所示，为本申请实施例提供的一种男性说话时气导语音数据与骨导语音数据之间的第一相干信号及骨导语音数据与参考气导语音数据之间的相干信号的波形示意图。其中，410为气导语音数据与骨导语音数据之间的第一相干信号的波形，420为骨导语音数据与参考气导语音数据之间的相干信号的波形；510为气导语音数据与骨导语音数据之间的第一相干信号的波形，520为骨导语音数据与参考气导语音数据之间的相干信号的波形。通过对图4和图5的分析可知，在质量较高的语音数据中，第一相干信号的峰值通常大于0.8，并且第一相干信号取值较高的频带通常位于300-800Hz频段内。

通过上述分析，在第一相干性系数包含相干系数峰值时，可以通过如下方式确定第一相干性指标是否符合预设指标条件：

在本申请实施例中，如果气导语音数据与骨导语音数据之间的相干系数峰值大于第一系数阈值，则可以确定气导语音数据与骨导语音数据之间的相关性较高，即气导语音数据及骨导语音数据的质量较高，从而可以确定气导语音数据与骨导语音数据之间的相干系数峰值符合预设指标条件；如果气导语音数据与骨导语音数据之间的相干系数峰值小于第一系数阈值，则可以确定气导语音数据与骨导语音数据之间的相关性较低，即气导语音数据及骨导语音数据的质量较低，从而可以确定气导语音数据与骨导语音数据之间的相干系数峰值不符合预设指标条件。

需要说明的是，如果目标语料对应的语音数据中包含多个通道的气导语音数据及多个通道的骨导语音数据，且在前述步骤中计算出了每个通道的气导语音数据分别与各个骨导语音数据之间的第一相干信号，则可以在确定各个第一相干信号对应的相干系数峰值均大于第一系数阈值时，确定气导语音数据与骨导语音数据之间的相干系数峰值符合预设指标条件；在任一第一相干信号对应的相干系数峰值均小于或等于第一系数阈值时，确定气导语音数据与骨导语音数据之间的相干系数峰值不符合预设指标条件。

实际使用时，可以根据实际需要及具体的应用场景，确定第一系数阈值的具体取值，本申请实施例对此不做限定。比如，通过图4和图5的规律可知，可以将第一系数阈值确定为0.8。

通过对图4和图5的上述分析，在第一相干性系数包含第一相干系数均值时，可以通过如下方式确定第一相干性指标是否符合预设指标条件：

实际使用时，可以根据实际需要及具体的应用场景，确定第一参考频带及第二系数阈值的具体取值，本申请实施例对此不做限定。比如，通过图4和图5的规律可知，可以将第一参考频带确定为300-800Hz，并将第二系数阈值确定为0.5，即在气导语音数据与骨导语音数据在300-800Hz之间的相干系数均值大于0.5时，可以确定第一相干系数均值符合预设指标条件，否则，可以确定第一相干系数均值不符合预设指标条件。

需要说明的是，如果目标语料对应的语音数据中包含多个通道的气导语音数据及多个通道的骨导语音数据，且在前述步骤中计算出了每个通道的气导语音数据分别与各个骨导语音数据之间的第一相干信号，则可以在确定各个第一相干信号对应的第一相干系数均值均大于第二系数阈值时，确定气导语音数据与骨导语音数据之间的第一相干系数均值符合预设指标条件；在任一第一相干信号对应的第一相干系数均值均小于或等于第二系数阈值时，确定气导语音数据与骨导语音数据之间的第一相干系数均值不符合预设指标条件。

作为一种示例，若第一相干性指标中仅包含相干系数峰值，则可以在按照上述方式确定气导语音数据与骨导语音数据之间的相干系数峰值符合预设指标条件时，即可以确定语音数据对应的可用性指标符合预设指标条件。

作为一种示例，若第一相干性指标中仅包含第一相干系数均值，则可以在按照上述方式确定气导语音数据与骨导语音数据之间的第一相干系数均值符合预设指标条件时，即可以确定语音数据对应的可用性指标符合预设指标条件。

作为一种示例，若第一相干性指标中同时包含相干系数峰值及第一相干系数均值，则可以在按照上述方式确定气导语音数据与骨导语音数据之间的相干系数峰值及第一相干系数均值均符合预设指标条件时，确定语音数据对应的可用性指标符合预设指标条件；在两者之间的任意一个不符合预设指标条件时，均可以确定语音数据对应的可用性指标不符合预设指标条件。

步骤304，在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集，其中，可用性指标包括气导语音数据与骨导语音数据之间的第一相干性指标。

上述步骤304的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

本申请实施例提供的语音数据集的构建方法，由于对于统一采集对象对同一语料进行阅读时产生的语音进行采集，所生成的气导语音数据与骨导语音数据通常具有较高的相似性，因此通过对同时采集的气导语音信号及骨导语音信号进行相干性分析，以通过两者之间的相干性指标分析两者的相似性，确定当前获取到的气导语音数据及骨导语音数据的可靠性和可用性，进一步提升了气骨导语音可用性评价的可靠性，并将可靠性高的语音数据加入语音数据集，从而进一步提升了构建的语音数据集的质量。

下面结合图6，对本申请实施例提供的语音数据集的构建方法进行进一步说明。

图6示出了本申请实施例提供的再一种语音数据集的构建方法的流程示意图。

如图6所示，该语音数据集的构建方法，包括以下步骤：

步骤601，获取目标语料对应的语音数据，其中，语音数据是利用语音采集设备对采集对象在预设采集环境中阅读目标语料时的语音进行采集生成的，语音数据中包含目标语料对应的气导语音数据及骨导语音数据。

上述步骤601的具体实现过程及原理，可以参照上述实施例的详细描述，此次不再赘述。

步骤602，获取目标语料对应的参考气导语音数据，其中，参考气导语音数据是在利用语音采集设备采集目标语料对应的语音数据的同时，利用参考气导传感器采集目标语料对应的气导语音数据。

其中，参考气导传感器，可以为高精度的气导传感器；参考气导语音数据，可以是在语音采集设备采集目标语料对应的语音数据的同时，利用参考气导传感器同步采集的目标语料对应的高质量的气导语音数据。

需要说明的是，由于参考气导语音数据是由高精度的外部参考气导传感器采集的，因此，对于同一个目标语料，如果语音采集设备采集的气导语音数据及骨导语音数据的质量较高，那么气导语音数据与参考气导语音数据之间的相干性，以及骨导语音数据与参考气导语音数据之间的相干性均较高，因此，可以通过参考气导语音信号、气导语音信号及骨导语音信号之间的相干性，对气导语音数据及骨导语音数据的可用性进行再次验证，以进一步提升气导语音数据及骨导语音数据可用性验证的准确性，进而进一步提升语音数据集的质量。

如图7所示，为本申请实施例提供的一种高质量气导语音数据与对应的参考气导语音数据之间的第二相干信号的波形示意图。如图4和图5所示，相干信号410与相干信号420之间具有较高的相似性，以及相干信号510与相干信号520之间也具有较高的相似性，如图7所示，在语音采集设备采集的气导语音数据的质量较高时，气导语音数据与参考气导语音数据之间的第二相干信号在大多数频段均处于较高的水平。因此，如果气导语音数据与参考气导语音数据之间的相干性较高，则可以证明气导语音数据的质量较高；而如果同时气导语音数据与骨导语音数据之间的相干性也较高时，可以间接证明骨导语音数据的质量也较高，从而可以根据前述气导语音数据与骨导语音数据之间的第一相干性指标，以及气导语音数据与参考气导语音数据之家的第二相干性指标，联合验证气导语音数据及骨导语音数据的可用性。

因此，如图2所示，可以在采集人员前方一定距离（如采集人员前方30厘米处）放置参考气导传感器，用于与语音采集设备同步采集参考气导语音数据。

步骤603，对气导语音数据及骨导语音数据进行相干性分析，以确定气导语音数据与骨导语音数据之间的第一相干信号。

步骤604，根据第一相干信号，确定气导语音数据与骨导语音数据之间的第一相干性指标。

上述步骤603-604的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤605，对气导语音数据及参考气导语音数据进行相干性分析，以确定气导语音数据与参考气导语音数据之间的第二相干信号。

其中，第二相干信号，可以用于表示气导语音数据与参考气导语音数据之间的相干系数随信号频率的变化关系。

需要说明的是，确定气导语音数据与参考气导语音数据之间的第二相干信号的过程，可以参考前述实施例中确定气导语音数据与骨导语音数据之间的第一相干信号的过程，此处不再赘述。

作为一种可能的实现方式，如果目标语料对应的语音数据中包含多个通道的气导语音数据，则可以分别对每个通道的气导语音数据与参考气导语音数据进行相干性分析，以确定每个通道的气导语音数据分别与参考气导语音数据之间的第二相干信号。

步骤606，根据第二相干信号，确定气导语音数据与参考气导语音数据之间的第二相干性指标。

其中，第二相干性指标，可以包括气导语音数据与参考气导语音数据之间的第二相干系数均值。

通过对图7的分析可知，对于质量较高的气导语音数据，气导语音数据与参考气导语音数据之间的第二相干信号取值较高的频带通常位于300-1000Hz频段内。因此，在第二相干性系数包含第二相干系数均值时，可以通过如下方式确定第二相干性指标是否符合预设指标条件：

实际使用时，可以根据实际需要及具体的应用场景，确定第二参考频带及第三系数阈值的具体取值，本申请实施例对此不做限定。比如，通过图7的规律可知，可以将第二参考频带确定为300-1000Hz，并将第二系数阈值确定为0.9，即在气导语音数据与骨导语音数据在300-1000Hz之间的相干系数均值大于0.9时，可以确定第二相干系数均值符合预设指标条件，否则，可以确定第二相干系数均值不符合预设指标条件。

需要说明的是，如果目标语料对应的语音数据中包含多个通道的气导语音数据，且在前述步骤中计算出了每个通道的气导语音数据分别与参考气导语音数据之间的第二相干信号，则可以在确定各个第二相干信号对应的第二相干系数均值均大于第三系数阈值时，确定气导语音数据与参考气导语音数据之间的第二相干系数均值符合预设指标条件；在任一第二相干信号对应的第二相干系数均值均小于或等于第三系数阈值时，确定气导语音数据与参考气导语音数据之间的第二相干系数均值不符合预设指标条件。

步骤607，在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集，其中，可用性指标包括气导语音数据与所述骨导语音数据之间的第一相干性指标及气导语音数据与参考气导语音数据之间的第二相干性指标。

在本申请实施例中，在语音数据对应的可用性指标中同时包含第一相干性指标及第二相干性指标时，则可以在按照上述方式确定语音数据对应的第一相干性指标及第二相干性指标均符合预设指标条件时，确定语音数据对应的可用性指标符合预设指标条件；在两者之间的任意一个不符合预设指标条件时，均可以确定语音数据对应的可用性指标不符合预设指标条件。

上述步骤607的其他具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

本申请实施例提供的语音数据集的构建方法，通过在语音采集设备外部设置高精度的气导传感器采集气导语音数据，以通过高质量的气导语音数据对语音采集设备采集的气导语音数据及骨导语音数据的可用性进行验证，从而进一步提升了骨气导语音数据的可用性验证的准确性，进而进一步提升了构建的语音数据集的质量。

下面结合图8，对本申请实施例提供的语音数据集的构建方法进行进一步说明。

图8示出了本申请实施例提供的又一种语音数据集的构建方法的流程示意图。

如图8所示，该语音数据集的构建方法，包括以下步骤：

步骤801，获取目标语料对应的语音数据，其中，语音数据是利用语音采集设备对采集对象在预设采集环境中阅读目标语料时的语音进行采集生成的，语音数据中包含目标语料对应的气导语音数据及骨导语音数据。

步骤802，对气导语音数据及骨导语音数据进行相干性分析，以确定气导语音数据与骨导语音数据之间的第一相干信号。

步骤803，根据第一相干信号，确定气导语音数据与骨导语音数据之间的第一相干性指标。

上述步骤801-803的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤804，对骨导语音数据进行频域分析，以确定骨导语音数据对应的频谱。

步骤805，根据骨导语音数据对应的频谱，确定骨导语音数据对应的频域特征指标。

如图9所示，为本申请实施例提供的一种男性采集对象对应的高质量气导语音数据、参考气导语音数据及多个点位的骨导语音数据对应的频谱图，图10为本申请实施例提供的一种女性采集对象对应的高质量气导语音数据、参考气导语音数据及多个点位的骨导语音数据对应的频谱图；其中，图9中的910对应的三条曲线分别对应三个点位的骨导语音数据的频谱，920为气导语音数据对应的频谱，930为参考气导语音数据对应的频谱；图10中的1010对应的三条曲线分别对应三个点位的骨导语音数据的频谱，1020为气导语音数据对应的频谱，1030为参考气导语音数据对应的频谱。由图9和图10可以看出，骨导语音数据的频域峰值对应的频率点通常集中在500Hz以内，骨导语音数据的频域能量通常集中在600Hz以内。

因此，通过上述分析，可以通过骨导语音数据对应的频域峰值指标和频域能量指标，对骨导语音数据的可用性进行再次验证。即在本申请实施例一种可能的实现方式中，上述频域特征指标可以包括频域峰值指标及频域能量指标中的至少一种。

通过对图9和图10的上述分析，在频域特征指标包括频域峰值指标时，可以通过如下方式确定频域特征指标是否符合预设指标条件：

其中，参考频率点，是指使得骨导语音数据对应的频谱取得峰值的频率值。

实际使用时，可以根据实际需要及具体的应用场景，确定第一频率阈值的具体取值，本申请实施例对此不做限定。比如，通过图9和图10的规律可知，可以将第一频率阈值确定为500Hz，即在使得骨导语音数据对应的频谱达到峰值的参考频率点小于或等于500Hz时，可以确定骨导语音数据的频域峰值指标符合预设指标条件，否则，可以确定骨导语音数据的频域峰值指标不符合预设指标条件。

需要说明的是，如果目标语料对应的语音数据中包含多个通道的骨导语音数据，则可以计算出每个通道的骨导语音数据分别对应的频谱，并可以在确定各个骨导语音数据对应的参考频率点均小于或等于第一频率阈值时，确定骨导语音数据对应的频域峰值指标符合预设指标条件；在任一骨导语音数据对应的参考频率点均大于第一频率阈值时时，确定骨导语音数据对应的频域峰值指标不符合预设指标条件。

通过对图9和图10的上述分析，在频域特征指标包括频域能量指标时，可以通过如下方式确定频域特征指标是否符合预设指标条件：

其中，参考信号能量，可以是指骨导语音数据对应的频谱在第三参考频带内的所有频率点对应的信号能量之和；骨导语音数据的总信号能量，可以是指骨导语音数据在全频带内的所有频率点对应的信号能量之和。

实际使用时，可以根据实际需要及具体的应用场景，确定第三参考频带及能量阈值的具体取值，本申请实施例对此不做限定。比如，通过图9和图10的规律可知，可以将第三参考频带确定为0-600Hz，以及将能量阈值确定为60%，即骨导语音数据对应的频谱在600Hz内的信号能量之和占总信号能量的60%以上时，可以确定骨导语音数据的频域能量指标符合预设指标条件，否则，可以确定骨导语音数据的频域能量指标不符合预设指标条件。

需要说明的是，如果目标语料对应的语音数据中包含多个通道的骨导语音数据，则可以计算出每个通道的骨导语音数据分别对应的频谱，并可以在确定各个骨导语音数据对应的频域能量指标均符合预设指标条件时，确定骨导语音数据对应的频域能量指标符合预设指标条件；在任一骨导语音数据对应的频域能量指标不符合预设指标条件时，确定骨导语音数据对应的频域能量指标不符合预设指标条件。

作为一种示例，若频域特征指标仅包括频域峰值指标，则在按照上述方式确定骨导语音数据对应的频域峰值指标符合预设指标条件时，即可以确定骨导语音数据对应的频域特征指标符合预设指标条件。

作为一种示例，若频域特征指标仅包括频域能量指标，则在按照上述方式确定骨导语音数据对应的频域能量指标符合预设指标条件时，即可以确定骨导语音数据对应的频域特征指标符合预设指标条件。

作为一种示例，若频域特征指标同时包含频域峰值指标及频域能量指标，则可以在按照上述方式确定骨导语音数据对应的频域峰值指标及频域能量指标均符合预设指标条件时，确定骨导语音数据对应的频域特征指标符合预设指标条件；在两者之间的任意一个不符合预设指标条件时，均可以确定骨导语音数据对应的频域特征指标不符合预设指标条件。

步骤806，在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集，其中，可用性指标包括气导语音数据与骨导语音数据之间的第一相干性指标及骨导语音信号对应的频域特征指标。

在本申请实施例中，在语音数据对应的可用性指标中同时包含第一相干性指标及骨导语音信号对应的频域特征指标时，则可以在按照上述方式确定语音数据对应的第一相干性指标及骨导语音信号对应的频域特征指标均符合预设指标条件时，确定语音数据对应的可用性指标符合预设指标条件；在两者之间的任意一个不符合预设指标条件时，均可以确定语音数据对应的可用性指标不符合预设指标条件。

上述步骤806的其他具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

本申请实施例提供的语音数据集的构建方法，由于对于统一采集对象对同一语料进行阅读时产生的语音进行采集，所生成的气导语音数据与骨导语音数据通常具有较高的相似性，因此通过对同时采集的气导语音信号及骨导语音信号进行相干性分析，以通过两者之间的相干性指标分析两者的相似性，确定当前获取到的气导语音数据及骨导语音数据的可靠性和可用性，并通过骨导语音数据的频域特征指标对骨导语音数据的可用性进行进一步验证，从而进一步提升了气骨导语音可用性评价的可靠性，并将可靠性高的语音数据加入语音数据集，从而进一步提升了构建的语音数据集的质量。

下面结合图11，对本申请实施例提供的语音数据集的构建方法进行进一步说明。

图11示出了本申请实施例提供的又一种语音数据集的构建方法的流程示意图。

如图11所示，该语音数据集的构建方法，包括以下步骤：

步骤1101，获取目标语料对应的语音数据，其中，语音数据是利用语音采集设备对采集对象在预设采集环境中阅读目标语料时的语音进行采集生成的，语音数据中包含目标语料对应的气导语音数据及骨导语音数据。

步骤1102，获取目标语料对应的参考气导语音数据，其中，参考气导语音数据是在利用语音采集设备采集目标语料对应的语音数据的同时，利用参考气导传感器采集目标语料对应的气导语音数据。

步骤1103，对气导语音数据及骨导语音数据进行相干性分析，以确定气导语音数据与骨导语音数据之间的第一相干信号。

步骤1104，根据第一相干信号，确定气导语音数据与骨导语音数据之间的第一相干性指标。

步骤1105，对气导语音数据及参考气导语音数据进行相干性分析，以确定气导语音数据与参考气导语音数据之间的第二相干信号。

步骤1106，根据第二相干信号，确定气导语音数据与参考气导语音数据之间的第二相干性指标。

步骤1107，对骨导语音数据进行频域分析，以确定骨导语音数据对应的频谱。

步骤1108，根据骨导语音数据对应的频谱，确定骨导语音数据对应的频域特征指标。

步骤1109，在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集，其中，可用性指标包括气导语音数据与骨导语音数据之间的第一相干性指标、气导语音数据与参考气导语音数据之间的第二相干性指标、及骨导语音信号对应的频域特征指标。

在本申请实施例中，还可以同时通过上述实施例中详细描述的气导语音数据与骨导语音数据之间的第一相干性指标、气导语音数据与参考气导语音数据之间的第二相干性指标、及骨导语音信号对应的频域特征指标，共同验证目标语料对应的语音数据的可用性；并且这三者均符合预设指标条件时，确定语音数据对应的可用性指标符合预设指标条件。

上述步骤1101-1109的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的语音数据集的构建方法，图12示出了本申请实施例提供的语音数据集的构建装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图12，该装置1200，包括：

第一获取模块1201，用于获取目标语料对应的语音数据，其中，语音数据是利用语音采集设备对采集对象在预设采集环境中阅读目标语料时的语音进行采集生成的，语音数据中包含目标语料对应的气导语音数据及骨导语音数据；

第一评估模块1202，用于对语音数据中的气导语音数据及骨导语音数据进行可用性评估，以确定语音数据对应的可用性指标；

第一构建模块1203，用于在语音数据对应的可用性指标符合预设指标条件的情况下，将语音数据加入语音数据集。

在实际使用时，本申请实施例提供的语音数据集的构建装置，可以被配置在任意电子设备中，以执行前述语音数据集的构建方法。

本申请实施例提供的语音数据集的构建装置，通过对采集对象阅读语料时的气导语音数据及骨导语音数据进行实时采集，并通过对气导语音数据及骨导语音数据进行可用性评估，以保证加入语音数据集中的各个气导语音数据及骨导语音数据的质量，从而实现了气骨导语音数据集的构建，并保证了气骨导语音数据集的质量。

在本申请一种可能的实现方式中，上述可用性指标包括气导语音数据与骨导语音数据之间的第一相干性指标；相应的，上述第一评估模块1202，包括：

进一步的，在本申请另一种可能的实现方式中，上述第一相干性指标包括相干系数峰值及第一相干系数均值中的至少一种。

进一步的，在本申请再一种可能的实现方式中，上述第一相干性指标包括相干系数峰值；相应的，上述装置1200，还包括：

进一步的，在本申请又一种可能的实现方式中，上述第一相干性指标包括所述第一相干系数均值；相应的，上述第一确定单元，具体用于：

相应的，上述装置1200，还包括：

进一步的，在本申请又一种可能的实现方式中，上述装置1200，还包括：

进一步的，在本申请另一种可能的实现方式中，上述可用性指标还包括气导语音数据与参考气导语音数据之间的第二相干性指标；相应的，上述第一评估模块1202，还包括：

进一步的，在本申请再一种可能的实现方式中，上述第二相干性指标包括第二相干系数均值；相应的，上述第二确定单元，具体用于：

相应的，上述装置1200，还包括：

进一步的，在本申请又一种可能的实现方式中，上述可用性指标还包括骨导语音信号对应的频域特征指标；相应的，上述第一评估模块1202，包括：

进一步的，在本申请又一种可能的实现方式中，上述频域特征指标包括频域峰值指标及频域能量指标中的至少一种。

进一步的，在本申请另一种可能的实现方式中，上述频域特征指标包括频域峰值指标；相应的，上述装置1200，还包括：

进一步的，在本申请再一种可能的实现方式中，上述频域特征指标包括频域能量指标；相应的，上述装置1200，还包括：

进一步的，在本申请另一种可能的实现方式中，上述语音采集设备包含气导传感器、骨导传感器及数据采样模块；相应的，上述第一获取模块1201，包括：

进一步的，在本申请再一种可能的实现方式中，上述装置1200，还包括：

第三获取模块，用于获取预设采集环境对应的信噪比；

进一步的，在本申请另一种可能的实现方式中，上述目标语料为预设语料库中的任一预设语料；相应的，上述预设语料库是通过以下方式生成的：

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

为了实现上述实施例，本申请还提出一种电子设备。

图13为本申请一个实施例的电子设备的结构示意图。

参见图13，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universal serial bus，USB）接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块（subscriber identification module，SIM）卡接口195等。其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，比如：处理器110可以包括应用处理器（application processor，AP），调制解调处理器，图形处理器（graphics processingunit，GPU），图像信号处理器（image signal processor，ISP），控制器，存储器，视频编解码器，数字信号处理器（digital signal processor，DSP），基带处理器，和/或神经网络处理器（neural-network processing unit，NPU）等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。作为一种示例，处理器110可以用于对获取到的气骨导语音数据进行可用性评估，并根据评估结果确定是否可以将语音数据加入语音数据集。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口，如可以包括集成电路（inter-integrated circuit，I2C）接口，集成电路内置音频（inter-integrated circuitsound，I2S）接口，脉冲编码调制（pulse code modulation，PCM）接口，通用异步收发传输器（universal asynchronous receiver/transmitter，UART）接口，移动产业处理器接口（mobile industry processor interface，MIPI），通用输入输出（general-purposeinput/output，GPIO）接口，用户标识模块（subscriber identity module，SIM）接口，和/或通用串行总线（universal serial bus，USB）接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网（wirelesslocal area networks，WLAN）（如无线保真（wireless fidelity，Wi-Fi）网络），蓝牙（bluetooth，BT），全球导航卫星系统（global navigation satellite system，GNSS），调频（frequency modulation，FM），近距离无线通信技术（near field communication，NFC），红外技术（infrared，IR）等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。比如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

外部存储器接口120可以用于连接外部存储卡，比如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。比如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，计算机可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，来执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序（比如声音播放功能，图像播放功能等）等。存储数据区可存储电子设备100在使用过程中所创建的数据（比如音频数据，电话本等）等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，比如至少一个磁盘存储器件，闪存器件，通用闪存存储器（universal flash storage，UFS）等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D以及应用处理器等实现音频功能，比如音乐播放，录音等。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本申请实施例的语音数据集的构建方法的解释说明，此处不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

在上述实施例中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件] ”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件] ”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、 “第二”、 “第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、 “在一些实施例中”、 “在其他一些实施例中”、 “在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、 “包含”、 “具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种语音数据集的构建方法，其特征在于，包括：

获取目标语料对应的语音数据，其中，所述语音数据是利用语音采集设备对采集对象在预设采集环境中阅读所述目标语料时的语音进行采集生成的，所述语音数据中包含所述目标语料对应的气导语音数据及骨导语音数据；

对所述语音数据中的所述气导语音数据及所述骨导语音数据进行可用性评估，以确定所述语音数据对应的可用性指标；其中，所述可用性指标包括所述气导语音数据与所述骨导语音数据之间的第一相干性指标，所述对所述语音数据中的所述气导语音数据及所述骨导语音数据进行可用性评估，以确定所述语音数据对应的可用性指标，包括：对所述气导语音数据及所述骨导语音数据进行相干性分析，以确定所述气导语音数据与所述骨导语音数据之间的第一相干信号，其中，所述第一相干信号用于表示所述气导语音数据与所述骨导语音数据之间的相干系数随信号频率的变化关系；根据所述第一相干信号，确定所述气导语音数据与所述骨导语音数据之间的第一相干性指标；

在所述语音数据对应的可用性指标符合预设指标条件的情况下，将所述语音数据加入语音数据集。

2.如权利要求1所述的方法，其特征在于，所述第一相干性指标包括相干系数峰值及第一相干系数均值中的至少一种。

3.如权利要求2所述的方法，其特征在于，所述第一相干性指标包括所述相干系数峰值，所述在所述语音数据对应的可用性指标符合预设指标条件的情况下，将所述语音数据加入语音数据集之前，还包括：

在所述气导语音数据与所述骨导语音数据之间的相干系数峰值大于第一系数阈值的情况下，确定所述相干系数峰值符合所述预设指标条件；

在所述气导语音数据与所述骨导语音数据之间的相干系数峰值小于或等于所述第一系数阈值的情况下，确定所述相干系数峰值未符合所述预设指标条件。

4.如权利要求2所述的方法，其特征在于，所述第一相干性指标包括所述第一相干系数均值，所述根据所述第一相干信号，确定所述气导语音数据与所述骨导语音数据之间的第一相干性指标，包括：

根据所述第一相干信号，将所述气导语音数据与所述骨导语音数据在第一参考频带内的相干系数均值，确定为所述气导语音数据与所述骨导语音数据之间的第一相干系数均值；

所述在所述语音数据对应的可用性指标符合预设指标条件的情况下，将所述语音数据加入语音数据集之前，还包括：

在所述第一相干系数均值大于第二系数阈值的情况下，确定所述第一相干系数均值符合所述预设指标条件；

在所述第一相干系数均值小于或等于所述第二系数阈值的情况下，确定所述第一相干系数均值未符合所述预设指标条件。

5.如权利要求1所述的方法，其特征在于，所述对所述语音数据中的所述气导语音数据及所述骨导语音数据进行可用性评估，以确定所述语音数据对应的可用性指标之前，还包括：

获取所述目标语料对应的参考气导语音数据，其中，所述参考气导语音数据是在利用所述语音采集设备采集所述目标语料对应的所述语音数据的同时，利用参考气导传感器采集所述目标语料对应的气导语音数据。

6.如权利要求5所述的方法，其特征在于，所述可用性指标还包括所述气导语音数据与所述参考气导语音数据之间的第二相干性指标，所述根据所述第一相干信号，确定所述气导语音数据与所述骨导语音数据之间的第一相干性指标之后，还包括：

对所述气导语音数据及所述参考气导语音数据进行相干性分析，以确定所述气导语音数据与所述参考气导语音数据之间的第二相干信号，其中，所述第二相干信号用于表示所述气导语音数据与所述参考气导语音数据之间的相干系数随信号频率的变化关系；

根据所述第二相干信号，确定所述气导语音数据与所述参考气导语音数据之间的第二相干性指标。

7.如权利要求6所述的方法，其特征在于，所述第二相干性指标包括第二相干系数均值，所述根据所述第二相干信号，确定所述气导语音数据与所述参考气导语音数据之间的第二相干性指标，包括：

根据所述第二相干信号，将所述气导语音数据与所述参考气导语音数据在第二参考频带内的相干系数均值，确定为所述气导语音数据与所述参考气导语音数据之间的第二相干系数均值；

在所述第二相干系数均值大于第三系数阈值的情况下，确定所述第二相干系数均值符合所述预设指标条件；

在所述第二相干系数均值小于或等于所述第三系数阈值的情况下，确定所述第二相干系数均值未符合所述预设指标条件。

8.如权利要求1所述的方法，其特征在于，所述可用性指标还包括所述骨导语音信号对应的频域特征指标，所述对所述语音数据中的所述气导语音数据及所述骨导语音数据进行可用性评估，以确定所述语音数据对应的可用性指标，包括：

对所述骨导语音数据进行频域分析，以确定所述骨导语音数据对应的频谱；

根据所述骨导语音数据对应的频谱，确定所述骨导语音数据对应的频域特征指标。

9.如权利要求8所述的方法，其特征在于，所述频域特征指标包括频域峰值指标及频域能量指标中的至少一种。

10.如权利要求9所述的方法，其特征在于，所述频域特征指标包括所述频域峰值指标，所述在所述语音数据对应的可用性指标符合预设指标条件的情况下，将所述语音数据加入语音数据集之前，还包括：

根据所述骨导语音数据对应的频谱，确定所述频谱的峰值对应的参考频率点；

在所述参考频率点小于或等于第一频率阈值的情况下，确定所述频域峰值指标符合所述预设指标条件；

在所述参考频率点大于所述第一频率阈值的情况下，确定所述频域峰值指标未符合所述预设指标条件。

11.如权利要求9所述的方法，其特征在于，所述频域特征指标包括所述频域能量指标，所述在所述语音数据对应的可用性指标符合预设指标条件的情况下，将所述语音数据加入语音数据集之前，还包括：

根据所述骨导语音数据对应的频谱，确定所述骨导语音数据在第三参考频带内的参考信号能量及所述骨导语音数据的总信号能量；

在所述参考信号能量与所述总信号能量的比值大于或等于能量阈值的情况下，确定所述频域能量指标符合所述预设指标条件；

在所述参考信号能量与所述总信号能量的比值小于所述能量阈值的情况下，确定所述频域能量指标未符合所述预设指标条件。

12.如权利要求1-11任一所述的方法，其特征在于，所述对所述语音数据中的所述气导语音数据及所述骨导语音数据进行可用性评估，以确定所述语音数据对应的可用性指标之后，还包括：

在所述语音数据对应的可用性指标未符合所述预设指标条件的情况下，将所述语音数据丢弃。

13.如权利要求1-11任一所述的方法，其特征在于，所述对所述语音数据中的所述气导语音数据及所述骨导语音数据进行可用性评估，以确定所述语音数据对应的可用性指标之后，还包括：

在所述语音数据对应的可用性指标未符合所述预设指标条件的情况下，暂停语音数据采集，并发出采集异常预警信息。

14.如权利要求1-11任一所述的方法，其特征在于，所述语音采集设备包含气导传感器、骨导传感器及数据采样模块，所述获取目标语料对应的语音数据，包括：

利用所述气导传感器采集所述目标语料对应的原始气导语音，并同时利用所述骨导传感器采集所述目标语料对应的原始骨导语音；

利用所述数据采样模块以预设采样率对所述原始气导语音进行采样，以生成所述气导语音数据；

利用所述数据采样模块以所述预设采样率对所述原始骨导语音进行采样，以生成所述骨导语音数据。

15.如权利要求1-11任一所述的方法，其特征在于，所述对所述语音数据中的所述气导语音数据及所述骨导语音数据进行可用性评估，以确定所述语音数据对应的可用性指标之前，还包括：

以第一临界频率对所述气导语音数据进行低通滤波处理；

以第二临界频率对所述骨导语音数据进行高通滤波处理。

16.如权利要求1-11任一所述的方法，其特征在于，所述获取目标语料对应的语音数据之前，还包括：

获取所述预设采集环境对应的信噪比；

确定所述预设采集环境对应的信噪比大于或等于信噪比阈值。

17.如权利要求1-11任一所述的方法，其特征在于，所述获取目标语料对应的语音数据之前，还包括：

利用所述语音采集设备对所述采集对象在所述预设采集环境中阅读至少一个语料时的语音进行采集，以生成各个所述语料对应的预采集语音数据，其中，所述预采集语音数据中包含所述语料对应的预采集气导语音数据及预采集骨导语音数据；

根据各个所述预采集语音数据，确定所述语音采集设备满足预设采集要求。

18.如权利要求1-11任一所述的方法，其特征在于，所述目标语料为预设语料库中的任一预设语料，所述预设语料库是通过以下方式生成的：

获取预设的语料生成规则，其中，所述语料生成规则包括语言类型、语料长度、发音规则、语法规则、语料数量中的至少一种；

根据所述预设的语料生成规则，生成多个所述预设语料，以构成所述预设语料库。

19.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-18中任一项所述的方法。

20.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-18中任一项所述的方法。