CN110633066A

CN110633066A - 语音采集方法、系统、移动终端及存储介质

Info

Publication number: CN110633066A
Application number: CN201910747694.8A
Authority: CN
Inventors: 陈剑超; 肖龙源; 李稀敏; 蔡振华; 刘晓葳; 王静
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-12-31
Anticipated expiration: 2039-08-14
Also published as: CN110633066B

Abstract

本发明适用于语音采集检测技术领域，提供了一种语音采集方法、系统、移动终端及存储介质，该方法包括：接收语音采集指令，并根据所述语音采集指令中存储的采集位置数据进行多个语音采集设备的位置布置；根据所述语音采集指令中存储的噪音数据进行多个背景噪音输出设备的位置布置；控制所述背景噪音输出设备进行噪音输出，并同时控制所述语音采集设备进行语音采集，以得到语音采集数据。本发明通过对不同所述背景噪音输出设备的位置布置，能有效的在当前环境下进行环境噪声的模拟，以达到针对不同的背景环境的布置需求效果，提高了后续语音采集的质量，防止了由于只能在当前可利用的环境进行语音数据采集所导致的采集语音质量不可控的现象。

Description

语音采集方法、系统、移动终端及存储介质

技术领域

本发明属于语音采集技术领域，尤其涉及一种语音采集方法、系统、移动终端及存储介质。

背景技术

在语音信号采集及后期处理过程中，所收集到的语音质量往往受到了采集环境所影响。如当前采集环境的本底噪声及外部噪声，从而直接影响到模型使用该数据集训练后的效果。此外，由于当前技术上的采集方式多为单通道采集方式，采集效率低下，又耗费了一定的人工成本，采集后的语音效果不理想。因此，为了提高语音模型的泛化能力，如何利用现有条件来模拟更多语音采集场景，已成为当前语音数据收集过程中避不开的话题。

在现有技术中，语音数据的采集环境常常受到当前环境所限制，只能在当前可利用的环境进行语音数据采集。而当前可利用的采集环境又由于在人为的环境中，进一步造成了许多不可控的因素，如：当前环境的对话声，环境背景噪声，外部环境噪声等。导致采集语音质量不可控，无法达到相应的采集标准。

发明内容

本发明实施例的目的在于提供一种语音采集方法、系统、移动终端及存储介质，旨在解决现有的语音采集方法过程中，由于只能在当前可利用的环境进行语音数据采集所导致的采集语音质量不可控的问题。

本发明实施例是这样实现的，一种语音采集方法，所述方法包括：

接收语音采集指令，并根据所述语音采集指令中存储的采集位置数据进行多个语音采集设备的位置布置，每个所述语音采集设备均对应不同语音采集通道；

根据所述语音采集指令中存储的噪音数据进行多个背景噪音输出设备的位置布置；

控制所述背景噪音输出设备进行噪音输出，并同时控制所述语音采集设备进行语音采集，以得到语音采集数据。

更进一步的，所述根据所述语音采集指令中存储的采集位置数据进行多个语音采集设备的位置布置的步骤包括：

获取所述采集位置数据中存储的采集坐标和与所述采集距离对应的采集夹角，所述采集位置数据中至少存储有两个所述采集坐标；

获取语音发声源的发声坐标，并根据所述发声坐标和所述采集距离对对应所述语音采集设备进行位置安放；

获取所述语音发声源的发声角度，并根据所述发声角度和所述采集夹角对对应所述语音采集设备进行角度调节。

更进一步的，所述根据所述语音采集指令中存储的噪音数据进行多个背景噪音输出设备的位置布置的步骤包括：

将所述噪音数据与本地预存储的噪音环境表进行匹配，以获取环境类型；

根据所述环境类型以进行坐标查询，以得到多个噪声坐标，并根据所述噪声坐标依序对对应所述背景噪音输出设备进行位置安放。

更进一步的，所述控制所述背景噪音输出设备进行噪音输出的步骤包括：

根据所述噪声坐标进行音频匹配，以得到噪声音频；

根据所述噪音音频控制对应所述背景噪音输出设备进行音频输出。

更进一步的，所述同时控制所述语音采集设备进行语音采集的步骤之后，所述方法还包括：

实时判断录入的所述语音采集数据是否满足录入条件；

若否，则发出提示，以提示用户针对所述语音采集数据重新进行录制。

更进一步的，所述实时判断录入的所述语音采集数据是否满足录入条件的步骤包括：

分别获取所述语音采集数据的语音振幅和有效录制时长，并分别判断所述语音振幅是否在预设振幅范围内、所述有效录制时长是否在预设时长范围内；

当判断到所述语音振幅未在所述预设振幅范围内，或所述有效录制时长未在所述预设时长范围内，则判定所述语音采集数据未满足所述录入条件；

当判断到所述语音振幅在所述预设振幅范围内，且所述有效录制时长在所述预设时长范围内，则判定所述语音采集数据满足所述录入条件。

更进一步的，所述方法还包括：

针对不同所述语音采集数据进行相似度计算，以得到相似度值；

当所述相似度值大于相似度阈值时，则将所述相似度值对应的多个所述语音采集数据进行规整。

本发明实施例的另一目的在于提供一种语音采集系统，所述系统包括：

采集设备布置模块，用于接收语音采集指令，并根据所述语音采集指令中存储的采集位置数据进行多个语音采集设备的位置布置，每个所述语音采集设备均对应不同语音采集通道；

噪音设备布置模块，用于根据所述语音采集指令中存储的噪音数据进行多个背景噪音输出设备的位置布置；

语音采集控制模块，用于控制所述背景噪音输出设备进行噪音输出，并同时控制所述语音采集设备进行语音采集，以得到语音采集数据。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的语音采集方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的语音采集方法的步骤。

本发明实施例，通过采用多通道同步采集语音的设计，有效的提升了语音数据采集效率，降低了人工采集成本，通过对不同所述语音采集设备的位置布置设计，有效的提高了语音采集的准确性，通过对不同所述背景噪音输出设备的位置布置，能有效的在当前环境下进行环境噪声的模拟，以达到针对不同的背景环境的布置需求效果，提高了后续语音采集的质量，防止了由于只能在当前可利用的环境进行语音数据采集所导致的采集语音质量不可控的现象。

附图说明

图1是本发明第一实施例提供的语音采集方法的流程图；

图2是本发明第二实施例提供的语音采集方法的流程图；

图3是本发明第三实施例提供的语音采集方法的流程图；

图4是本发明第四实施例提供的语音采集系统的结构示意图；

图5是本发明第五实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的语音采集方法的流程图，包括步骤：

步骤S10，接收语音采集指令，并根据所述语音采集指令中存储的采集位置数据进行多个语音采集设备的位置布置；

其中，所述语音采集指令可以采用语音信号、触控信号或无线信号的方式进行传输，所述语音采集指令用于进行当前语音数据的采集触发，每个所述语音采集设备均对应不同语音采集通道，所述语音采集设备可以采用全指向性麦克风，所述语音采集设备的数量可以根据用户需求自主进行设置；

具体的，所述采集位置数据中存储有多个位置坐标，该位置坐标用于所述语音采集设备的位置布置，该步骤中，通过采用多通道同步采集语音的设计，有效的提升了语音数据采集效率，降低了人工采集成本；

步骤S20，根据所述语音采集指令中存储的噪音数据进行多个背景噪音输出设备的位置布置；

其中，在进行语音数据采集过程中，针对不同的语音数据其应用背景均不相同，因此，本实施例中，为保障语音数据采集的质量，通过多个所述背景噪音输出设备的位置布置设计，以达到模拟不同应用场景的效果，即通过控制位于不同坐标的所述背景噪音输出设备发出对应声音，以模拟不同背景场景；

例如，所述背景场景可以为“商场”、“教室”、“室内”、“雷雨天气环境”或“大风天气环境”；

该步骤中，通过在静音环境中的不同位置，布置一定数量的背景噪音输出设备，利用背景噪音输出设备相对应的噪声来为静音环境中添加各类噪声，同时在模拟背景场景的环境下进行语音数据采集，进而有效的提高语音采集的质量；

步骤S30，控制所述背景噪音输出设备进行噪音输出，并同时控制所述语音采集设备进行语音采集，以得到语音采集数据；

其中，通过根据语音采集设备的数量使用不同通道数的调音台对采集语音数据进行语音信号A/D转换，即通过调音台将模拟信号转为数字信号，以得到所述语音采集数据；

本实施例，通过采用多通道同步采集语音的设计，有效的提升了语音数据采集效率，降低了人工采集成本，通过对不同所述语音采集设备的位置布置设计，有效的提高了语音采集的准确性，通过对不同所述背景噪音输出设备的位置布置，能有效的在当前环境下进行环境噪声的模拟，以达到针对不同的背景环境的布置需求效果，提高了后续语音采集的质量，防止了由于只能在当前可利用的环境进行语音数据采集所导致的采集语音质量不可控的现象。

实施例二

请参阅图2，是本发明第二实施例提供的语音采集方法的流程图，包括步骤：

步骤S11，接收语音采集指令，并获取所述语音采集指令中采集位置数据中存储的采集坐标和与所述采集距离对应的采集夹角；

其中，通过所述采集距离和所述采集夹角的获取设计，有效的提高了后续针对语音采集设备安放的准确性，进而提高了后续语音采集的准确性和质量，优选的，所述采集位置数据中至少存储有两个所述采集坐标，所述采集坐标采用平面坐标的方式进行存储，且针对当前环境本地预存储有预设原点和预设夹角正方向；

步骤S21，获取语音发声源的发声坐标，并根据所述发声坐标和所述采集距离对对应所述语音采集设备进行位置安放；

优选的，所述语音采集设备的位置布置规则还可以根据实际情况中语音发声源与语音采集设备的距离进行布置，例如如果要模拟客厅电视使用环境时，语音发声源与语音采集设备的距离就根据两者之间的距离来设置，太远或太近均会破坏模拟场景，影响语音采集效果，且该步骤中，每个所述语音采集设备均对应不同语音采集通道；

步骤S31，获取所述语音发声源的发声角度，并根据所述发声角度和所述采集夹角对对应所述语音采集设备进行角度调节；

其中，所述发声角度为所述语音发声源的发声朝向，该步骤中，通过基于所述预设夹角正方向和所述发声角度，以使将对应所述语音采集设备调节至与所述语音发声源之间的夹角等于所述采集夹角，进而有效的提高了针对所述语音发声源语音采集的准确性；

步骤S41，根据所述语音采集指令中所述噪音数据与本地预存储的噪音环境表进行匹配，以获取环境类型；

其中，所述噪音环境表中存储有多组不同噪音环境与对应所述环境类型之间的对应关系，所述噪音数据可以为文本数据、语音数据或数值数据，不同所述环境类型对应的背景环境噪声不相同；

步骤S51，根据所述环境类型以进行坐标查询，以得到多个噪声坐标，并根据所述噪声坐标依序对对应所述背景噪音输出设备进行位置安放；

步骤S61，根据所述噪声坐标进行音频匹配，以得到噪声音频；

步骤S71，根据所述噪音音频控制对应所述背景噪音输出设备进行音频输出，并同时控制所述语音采集设备进行语音采集，以得到语音采集数据；

其中，所述同时控制所述语音采集设备进行语音采集的步骤之后，所述方法还包括：

实时判断录入的所述语音采集数据是否满足录入条件；

若否，则发出提示，以提示用户针对所述语音采集数据重新进行录制；

具体的，所述实时判断录入的所述语音采集数据是否满足录入条件的步骤包括：

当判断到所述语音振幅在所述预设振幅范围内，且所述有效录制时长在所述预设时长范围内，则判定所述语音采集数据满足所述录入条件；

实施例三

请参阅图3，是本发明第三实施例提供的语音采集方法的流程图，包括步骤：

步骤S12，接收语音采集指令，并获取所述语音采集指令中所述采集位置数据中存储的采集坐标和与所述采集距离对应的采集夹角；

其中，所述采集位置数据中至少存储有两个所述采集坐标；

步骤S22，获取语音发声源的发声坐标，并根据所述发声坐标和所述采集距离对对应所述语音采集设备进行位置安放；

其中，每个所述语音采集设备均对应不同语音采集通道；

步骤S32，获取所述语音发声源的发声角度，并根据所述发声角度和所述采集夹角对对应所述语音采集设备进行角度调节；

步骤S42，根据所述语音采集指令中所述噪音数据与本地预存储的噪音环境表进行匹配，以获取环境类型；

步骤S52，根据所述环境类型以进行坐标查询，以得到多个噪声坐标，并根据所述噪声坐标依序对对应所述背景噪音输出设备进行位置安放；

步骤S62，根据所述噪声坐标进行音频匹配，以得到噪声音频；

步骤S72，判断当前环境是否满足录音条件；

其中，可以通过判断当前环境中的当前分贝值是否小于分贝阈值的方式，以判断所述当前环境是否满足所述录音条件，具体的，该步骤中，通过所述当前环境与所述录音条件之间的判断，有效的防止了由于当前环境所导致的语音采集数据的质量下降，优选的，该步骤中，所述录音条件中的判断参数可以根据用户需求自主进行设置；

当步骤S72判断到所述当前环境未满足录音条件时，执行步骤S82；

步骤S82，发出录音错误提示；

其中，可以采用声光报警、语音报警、短信提醒或振动报警的方式以提示用户当前环境未满足录音条件，以使用户对当前环境进行改善，以保障语音数据采集的质量；

当步骤S72判断到所述当前环境满足所述录音条件时，执行步骤S92；

步骤S92，根据所述噪音音频控制对应所述背景噪音输出设备进行音频输出，并同时控制所述语音采集设备进行语音采集，以得到语音采集数据；

步骤S102，针对不同所述语音采集数据进行相似度计算，以得到相似度值；

其中，可以通过采用语音聚类技术的方式以进行所述相似度值的计算，通过计算每个人语音数据的相似度得分，例如：同一个人的语音相似度得分越高，就可将同一人语音归整为一块，同时将符合标准录制的语音进行整理命名，建立数据库索引，方便后期管理；

步骤S112，当所述相似度值大于相似度阈值时，则将所述相似度值对应的多个所述语音采集数据进行规整；

实施例四

请参阅图4，是本发明第四实施例提供的语音采集系统100的结构示意图，包括采集设备布置模块10、噪音设备布置模块11和语音采集控制模块12，其中：

采集设备布置模块10，用于接收语音采集指令，并根据所述语音采集指令中存储的采集位置数据进行多个语音采集设备的位置布置，每个所述语音采集设备均对应不同语音采集通道。

其中，所述采集设备布置模块10还用于：获取所述采集位置数据中存储的采集坐标和与所述采集距离对应的采集夹角，所述采集位置数据中至少存储有两个所述采集坐标；获取语音发声源的发声坐标，并根据所述发声坐标和所述采集距离对对应所述语音采集设备进行位置安放；获取所述语音发声源的发声角度，并根据所述发声角度和所述采集夹角对对应所述语音采集设备进行角度调节。

噪音设备布置模块11，用于根据所述语音采集指令中存储的噪音数据进行多个背景噪音输出设备的位置布置。

其中，所述噪音设备布置模块11还用于：将所述噪音数据与本地预存储的噪音环境表进行匹配，以获取环境类型；根据所述环境类型以进行坐标查询，以得到多个噪声坐标，并根据所述噪声坐标依序对对应所述背景噪音输出设备进行位置安放。

优选的，所述噪音设备布置模块11还用于：根据所述噪声坐标进行音频匹配，以得到噪声音频；根据所述噪音音频控制对应所述背景噪音输出设备进行音频输出。

语音采集控制模块12，用于控制所述背景噪音输出设备进行噪音输出，并同时控制所述语音采集设备进行语音采集，以得到语音采集数据。

此外，本实施例中，所述语音采集系统100还包括：

录音提示模块13，用于实时判断录入的所述语音采集数据是否满足录入条件；若否，则发出提示，以提示用户针对所述语音采集数据重新进行录制。

优选的，所述录音提示模块13还用于：分别获取所述语音采集数据的语音振幅和有效录制时长，并分别判断所述语音振幅是否在预设振幅范围内、所述有效录制时长是否在预设时长范围内；当判断到所述语音振幅未在所述预设振幅范围内，或所述有效录制时长未在所述预设时长范围内，则判定所述语音采集数据未满足所述录入条件；当判断到所述语音振幅在所述预设振幅范围内，且所述有效录制时长在所述预设时长范围内，则判定所述语音采集数据满足所述录入条件。

此外，本实施例中，所述语音采集系统100还包括：

相似度规整模块14，用于针对不同所述语音采集数据进行相似度计算，以得到相似度值；当所述相似度值大于相似度阈值时，则将所述相似度值对应的多个所述语音采集数据进行规整。

实施例五

请参阅图5，是本发明第五实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音采集方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

控制所述背景噪音输出设备进行噪音输出，并同时控制所述语音采集设备进行语音采集，以得到语音采集数据。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图4中示出的组成结构并不构成对本发明的语音采集系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-3中的语音采集方法亦采用图4中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音采集系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标语音采集系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音采集方法，其特征在于，所述方法包括：

2.如权利要求1所述的语音采集方法，其特征在于，所述根据所述语音采集指令中存储的采集位置数据进行多个语音采集设备的位置布置的步骤包括：

3.如权利要求1所述的语音采集方法，其特征在于，所述根据所述语音采集指令中存储的噪音数据进行多个背景噪音输出设备的位置布置的步骤包括：

4.如权利要求3所述的语音采集方法，其特征在于，所述控制所述背景噪音输出设备进行噪音输出的步骤包括：

根据所述噪声坐标进行音频匹配，以得到噪声音频；

5.如权利要求1所述的语音采集方法，其特征在于，所述同时控制所述语音采集设备进行语音采集的步骤之后，所述方法还包括：

实时判断录入的所述语音采集数据是否满足录入条件；

6.如权利要求4所述的语音采集方法，其特征在于，所述实时判断录入的所述语音采集数据是否满足录入条件的步骤包括：

7.如权利要求1所述的语音采集方法，其特征在于，所述方法还包括：

8.一种语音采集系统，其特征在于，所述系统包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的语音采集方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的语音采集方法的步骤。