CN112887875A

CN112887875A - 会议系统语音数据采集方法、装置、电子设备及存储介质

Info

Publication number: CN112887875A
Application number: CN202110088597.XA
Authority: CN
Inventors: 赵建平; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-06-01
Anticipated expiration: 2041-01-22
Also published as: CN112887875B

Abstract

本发明涉及一种人工智能，揭露一种会议系统语音数据采集方法，包括：分别采用远场麦克风阵列和近场麦克风在会议现场实时采集会议系统的语音数据，以得到语音数据集；其中，所述语音数据集中同时包含所述会议现场的同步白噪声；将所述语音数据集与预先录制的仿真噪声集进行时间同步处理，获取同步后的语噪同步数据集；对所述语噪同步数据集进行分段时间信息标注和文字标注；根据所述语噪同步数据集和所标注的分段时间信息和文字，构建仿真含噪语音数据集。本发明能够为智能会议系统中语音识别、语音增强和语音分离数据处理进行性能优化和提升，以提供准确有效的训练和测试数据集。

Description

会议系统语音数据采集方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种会议系统语音数据采集方法、装置、电子设备及计算机可读存储介质。

背景技术

随着人工智能和通讯技术的发展和普及，越来越多的企业和用户采用音视频会议系统进行本地和多方的会议交流。音视频会议的应用不仅大大的降低了用户沟通成本和时间，提高了企业和用户的生产和工作效率；同时，音视频会议系统中，越来越多的图像和语音的人工智能算法被采用，如人脸识别、OCR、语音识别、声纹识别、角色分离、声源分离等，也进一步提高了数字化会议纪要的效率。

智能会议系统中需要对会议对话进行文字转写,涉及诸多语音相关技术。由于与会说话人的语音采集质量、远场条件下频谱衰减、会议室大小的混响等因素的影响，存在多个与会者同时发言时的语音混杂，以及其他环境噪音的影响,造成文字转写的正确率很难达到实用的效果。

同时，目前现有的语音技术，多采用近场电话或者手机采集的数据进行模型训练，这种训练模式在会议的远场场景下往往会失效，其准确率远低于近场场景的语音采集效果。通常的音视频会议系统，所使用采集设备往往以音质作为优化指标，将算法固化在硬件系统，反而造成语音后期处理技术准确率降低，且调试和联合优化门槛很高。

而现有的其他远场的智能语音设备数据集,通常主要针对关键词和设备控制，很难有很好的连续语音识别的数据覆盖度。

基于此，亟需一种能够解决现有的会议系统语音数据采集的准确率和处理效率低问题的技术。

发明内容

本发明提供一种会议系统语音数据采集方法、装置、电子设备及计算机可读存储介质，其主要目的在于解决现有的会议系统语音数据采集方式中存在的语音混杂、后期处理技术准确率低，且调试和联合优化门槛很高等问题。

为实现上述目的，本发明提供的一种会议系统语音数据采集方法，应用于电子装置，包括：

分别采用远场麦克风阵列和近场麦克风在会议现场实时采集会议系统的语音数据，以得到语音数据集；其中，所述语音数据集中同时包含所述会议现场的同步白噪声；

将所述语音数据集与预先录制的仿真噪声集进行时间同步处理，获取同步后的语噪同步数据集；

对所述语噪同步数据集进行分段时间信息标注和文字标注；

根据所述语噪同步数据集和所标注的分段时间信息和文字，构建仿真含噪语音数据集。

可选地，所述在会议现场实时采集会议系统的语音数据的步骤，具体包括：

根据所述会议现场的房间长宽高几何信息、与会者几何坐标信息、麦克风阵列信息和手机几何坐标信息确定所述远场麦克风阵列的设置位置。

可选地，还包括设置所述远场麦克风阵列的步骤，所述设置所述远场麦克风阵列的步骤包括：在所述会议现场中间位置设置环形麦克风阵列；以及，在所述会议现场的投屏或者显示器一侧设置线性麦克风阵列。

可选地，所述仿真噪声集在会议结束后保留所述会议现场的录制环境录制；其中，所述仿真噪声集的录制的步骤包括：

播放所述同步白噪声，然后分别播放仿真弥散声场噪声和点声源噪声；

录制所述播放的同步白噪声、仿真弥散声场噪声和点声源噪声，以形成所述仿真噪声集。

可选地，通过布置在所述会议现场四个角落的扬声器组播放所述仿真弥散声场噪声；其中，所述扬声器组分别朝向所述会议现场的墙面或者玻璃面播放所述仿真弥散声场噪声。

可选地，所述将所述语音数据集与预先录制的仿真噪声集进行时间同步处理的步骤，具体包括：

将所述语音数据集与预先录制的仿真噪声集进行手动对齐，形成语音同步数据，其中，所述语音同步数据的时延在1s以内；

对所述语音同步数据进行分帧、加窗处理；

对分帧加窗后的语音同步数据进行4096点FFT处理；

确定FFT处理后的语音同步数据的每个窗口的时延估计；

通过对所述时延估计进行评估，确定所述语音同步数据的同步时延；

根据所述同步时延调整所述语音同步数据中的各语音数据，以使所述语音数据集和所述仿真噪声集的时间同步。

可选地，所述对所述语噪同步数据集进行分段时间信息标注和文字标注的步骤，具体包括：对通过所述近讲麦克风采集的语音数据集进行分段时间信息标注和文字标注，形成近场标注信息；

以所标注的近场标注信息作为对通过所述远场麦克风采集的语音数据集进行分段时间信息标注和文字标注的信息。

为了解决上述问题，本发明还提供一种会议系统语音数据采集装置，所述装置包括：

有语音数据集采集单元，用于通过远场麦克风阵列和近场麦克风在会议现场实时采集会议系统的语音数据，以得到语音数据集；其中，所述语音数据集中同时包含所述会议现场的同步白噪声；

语噪同步单元，用于将所述语音数据集与预先录制的仿真噪声集进行时间同步处理，获取同步后的语噪同步数据集；

标注单元，用于对所述语噪同步数据集进行分段时间信息标注和文字标注；

仿真含噪语音数据构建单元，用于根据所述语噪同步数据集和所标注的分段时间信息和文字，构建仿真含噪语音数据。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的会议系统语音数据采集方法中的步骤。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的会议系统语音数据采集方法。

本发明提供的上述多语音采集设备的会议系统语音数据集采集方案，使用多组远场多麦克风采集设备以及针对说话人的近讲麦克风，辅助以有效地对齐方法，为智能会议系统中语音识别、语音增强和语音分离数据处理进行性能优化和提升，以提供准确有效的训练和测试数据集。

附图说明

图1为根据本发明实施例的会议系统语音数据采集方法的流程示意图；

图2为根据本发明实施例的会议系统语音数据采集装置的模块示意图；

图3为根据本发明实施例的远场麦克风阵列的设置示意图；

图4为根据本发明实施例的会议仿真噪声的录制示意图；

图5为根据本发明实施例的会议系统语音数据采集装置的功能模块；

图6为实现会议系统语音数据采集方法的电子设备的内部结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种会议系统语音数据采集方法。参照图1所示，为本发明一实施例提供的会议系统语音数据采集方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，会议系统语音数据采集方法包括：

S110：分别采用远场麦克风阵列和近场麦克风在会议现场实时采集会议系统的语音数据，以得到语音数据集。

其中的语音数据集中同时包含所述会议现场的同步白噪声。

具体的，在会议现场进行会议系统语音数据集语音录制的过程中，与会者需要佩戴近场麦克风，通过近场麦克风准确记录每一个发言人的语音数据。该近场麦克风可以是头戴式近讲麦克风，也可以是手持式近讲麦克风。

同时，现场采集记录房间长宽高几何信息，记录与会者几何坐标信息、麦克风阵列和手机几何坐标信息，以便根据会议现场实际情况合理设置远场麦克风阵列，以及在后期录制仿真噪声集时通过这些参数保证两次录制时的录制环境相同。

具体的，作为示例，设置远场麦克风阵列的步骤包括：

在会议现场中间位置设置环形麦克风阵列；以及在会议现场的投屏或者显示器一侧设置线性麦克风阵列。一个远场麦克风阵列的设置示例如下图3所示。

在图3所示的远场麦克风阵列中，包含一个环形麦克风阵列和一个线性麦克风阵列，环形麦克风阵列一般布置在会议室中间位置(若会议室直径长度超过10m，可布置多个环形麦克风阵列)，线性麦克风阵列一般布置在会议室投屏或者显示器一侧。在图3所示的示例中，布置在会议室中间位置的环形麦克风阵列为6通道的环形麦克风阵列，布置在最左侧的线性麦克风阵列为4通道的麦克风阵列，上述6通道和4通道的麦克风阵列中，一般只采用第一通道进行语音的采集录制。

麦克风阵列是由多个麦克风构成的、有一定集合形状的阵列，它可以同时采集空间中不同位置的声音信号，具有很强的空间选择性和较强的干扰抑制能力，可以灵活地进行波束控制。

另外，还要记录会议设备和与会人员位置的坐标信息，作为数据集的未标注信息，为后续麦克风阵列算法(方向性估计)提供真实参考方向数据。

为了后续录制语音的识别，在会议开始录音时,还需要播放同步白噪声，以在采集现场与会者的语音数据的同时采集会场的同步白噪声的声音。

在本发明的一个具体实施例中，采用播放时长30s、声压级80dBA的白噪声@MRP(mouth refence point)，会议录音同步白噪声的声音。

S120：将上述语音数据集与预先录制的仿真噪声集进行时间同步处理，获取同步后的语噪同步数据集。

其中，由于需要用到预先录制的仿真噪声集，因此，在这一步骤之前，要先行进行会议系统语音数据集的仿真噪声的录制，为了保障录制环境的完全一致，仿真噪声集需要在会议结束后保留原会议现场的录制环境录制。

具体的，可以在会议结束后，保留原会议现场的麦克风阵列和手机坐标。录制仿真噪声集之前，要先行播放白噪声，以使得录音同步声音，此时播放的白噪声可以与步骤S110中采集语音数据集时播放的同步白噪声一致，采用播放时长30s、声压级80dBA的白噪声@MRP(mouth refence point)。

仿真噪声集主要包括仿真弥散声场噪声和点声源噪声，在本发明的一个具体实施方式中，仿真弥散声场声源通过布置在会议现场的四个角落的扬声器实现，各组扬声器播放由事先录制的噪声数据。

作为优选的实现方案，本发明中简化了噪声的仿真播放方法，由四组扬声器分别朝向墙面或者玻璃面的方式进行仿真。其中的弥散声源类型包括汽车噪声、空调噪声等。点声源噪声的仿真播放，可以随机选择一个扬声器播放预先录制的点声源噪声，该点声源噪声类型可以为日常电视广播、音乐、敲击声等。分别播放同步白噪声、仿真弥散声场噪声和点声源噪声的过程中，在播放声压级80dBA@MRP(mouth refence point)的环境下录制本会议室的仿真噪声集。

在该步骤中录制的同步白噪声、仿真弥散声场噪声和点声源噪声，形成了优化前述语音数据集的仿真噪声集。

图4为根据本发明实施例的会议仿真噪声的录制示意图。

如图4所示，上述会议仿真噪声的录制也可以在会议前进行，但是由于需要录制的会议现场布置(尤其是麦克风阵列的布置)和会议真正进行时的布置是一样的，而会议真正过程中的会议环境有可能会根据与会人员的变动、现场实际环境的变动发生变化，要想使后期会议实际召开时的环境保持和会前录制仿真噪声的环境一致，还是存在一定难度的，而在会议结束之后保持原会议环境不变再录制会议仿真噪声，相对来讲则会容易的多，也更可行。

本步骤中所录制的仿真噪声集，与同样声学和设备位置条件下的语音数据集，进行数字上的叠加，就可以构建仿真真实环境的含噪语音集。其中，幅度的叠加比例额，即信噪比，可由具体的实验环境设定。

上述数字上的叠加，即为语音数据集和仿真噪声集时间同步，同步后形成语噪同步数据集。

具体的，作为示例，在下述同步过程S1221～S1126中，各选取每组麦克风阵列的第一通道语音，以近场的头戴式耳麦、手机的第一通道为参考，分别进行功率谱互相关，选取峰值得到设备间相对时延，使用sox、ffmepg、audacity等音频编辑工具，进行相对时延切分，进而对齐。

具体的，作为示例，以下示出了根据本发明实施例的将语音数据集和仿真噪声集进行时间同步的具体处理步骤：

S1221：将现场所有音频采集设备所采集的音频数据(包括近讲麦克风数据、远场环形麦克风数据、远场线性麦克风数据和手机数据)，即语音数据集和仿真噪声集，进行手动对齐，形成语音同步数据，其中，将所述语音同步数据的时延控制在1s以内。

具体的，在手动对齐的过程中，可以参照前述作为音频录制起始点的同步白噪声，通过音频编辑工具(如Audition、Audacity)，将近场麦克风数据、远场环形麦克风数据、远场线性麦克风数据和手机数据的第一帧音频信号进行对齐调整。本步骤的手动对齐只是利用音频处理软件进行粗对齐，在后续步骤中还要用时延估计公式计算时差，以使所述语音集和噪声集的时间同步，从而为后期使用SoX等音频处理工具提供准确的时间。

S1222：对所述语音同步数据进行分帧、加窗处理；其中，设置1窗长，200s帧移；

S1223：对分帧加窗后的语音同步数据进行4096点FFT(fast Fourier transform，快速傅里叶变换)；

S1224：通过下述公式确定FFT后的语音同步数据的每个窗口的时延估计；

其中，τ为时延，Pxy(w)表示x,y的互功率谱，w表示频点取(-pi,pi)。

S1225：通过评估30s时延稳定性和时延估计，确定所述语音同步数据的同步时延；

S1226：根据所述同步时延调整所述语音同步数据中的各语音数据，以使所述语音数据集和仿真噪声集的时间同步，得到语噪同步数据集。

S130：对同步后的语噪同步数据集进行分段时间信息标注和文字标注。

在对同步后的语噪同步数据集进行分段时间信息标注和文字标注的过程中，如果直接用远场数据进行标注，其人工和半人工标注的准确率不足以得到保证。因此，本发明中采用以近讲麦克风为参考语音，进行人工或半人工(机器辅助)的文字标注和分段时间信息标注。具体包括：

S131：对通过近讲麦克风所采集的语音数据进行分段时间信息标注和文字标注，形成近场标注信息；

如下述标注示例：

intervals[9]:CRLF

xmin＝16.149925354919574CRLF

xmax＝20.529939094649475CRLF

text＝“嗯现在大家创业氛围这么久了，也没好好的一起放松过”CRLF

intervals[10]:CRLF

xmin＝20.529939094649475CRLF

xmax＝21.308373504148097CRLF

text＝“<FILLfp/>”CRLF

intervals[10]:CRLF

xmin＝21.308373504148097CRLF

xmax＝26.29149936574922CRLF

text＝“大家也就借助这个春暖花开的时机，来进行一下户外运动嘛”CRLF

S132：以上述近场标注信息作为对通过远场麦克风采集的语音数据集进行分段时间信息标注和文字标注的信息。

标注完通过近场麦克风采集的语音数据后，由于远场麦克风阵列和头戴式近场麦克风所录制的物理声源是一致的，且在步骤S120中已经将这两种语音数据进行对齐，因此，标注的近场麦克风采集的语音数据的分段时间信息和文字即为远场麦克风阵列的分段时间信息和文字。

其中，头戴式近场麦克风之间分段时间相互耦合的部分，为多个说话人同时说话，也予以标注。

另外，语噪同步数据集分段时间信息标注和文字标注后，也可以在后期用以语音识别模型训练。

S140：根据所述语噪同步数据集和所标注的分段时间信息和文字，构建仿真含噪语音数据集。

在本发明的上述实施例中，图3和图4所示的录制环境中的设备和房间的物理信息一致，且噪声播放声压级为固定值，因此，在图2中录制的远场麦克风阵列和手机数据上，叠加由图2环境录制的不同能量集的噪声，从而构建不同信噪比下的仿真含噪语音集。其标注分段时间信息和文字信息，由图1环境下所录制的语音集获得，并记录信噪比和噪音类型。

含噪语音数据集Y(t)的计算公式如下：

其中，SNR₀表示当前信噪比，SNR表示设定为(-5，0，5，10，15，20dB)的信噪比，X(t)(t表示时间)表示语音数据集，Y(t)表示含噪语音数据集，(N(t))表示噪声数据集，T为语音的总时长。

当前信噪比SNR₀的计算公式如下：

本发明的上述会议系统语音数据采集方法的数据传输逻辑如图2所示。

在图2所示的数据传输逻辑中，实线部分为语音数据集的数据传输逻辑，虚线部分为仿真噪声集的数据传输逻辑。

如图2所示，在会议系统中所有语音采集设备(包括近场麦克风、远场麦克风、手机)采集到语音和噪声数据后，对所采集的语音数据集和仿真噪声数据集进行对齐处理，以消除时延，实现同步，得到语音同步数据；然后根据近场麦克风数据对语音同步数据进行时间标注和文本标注；最后对标注后的同步数据进行短语音切分和合并对齐，以形成最终的含噪语音数据集。其中，使用sox、ffmepg、audacity等音频编辑工具，根据标注时间信息进行切分、对齐、多通道语音合并。

其中，还可以根据说话人的方向进行方向性信息标注，采用麦克风阵列算法中的DOA模块，Direction of Arrival，为说话人方向估计提供真实标注，以使语音数据集更加完善。

通过上述实施例可以看出，本发明提出的基于多语音采集设备的会议系统语音数据集采集方法，使用多组远场多麦克风采集设备以及针对说话人的近场麦克风，辅助以有效地对齐方法，为智能会议系统中语音识别、语音增强和语音分离数据处理进行性能优化和提升，提供了准确有效的训练和测试数据集。在本发明提出的数据采集方案中，远场语音和其标注文本的数据对，可为语音识别模型训练提供训练数据，远场语音和近讲麦克风的数据对，可为语音增强和语音分离深度学习模型提供优质的训练数据。

另外，本发明同步采集了多组语音采集设备的语音信号，因后续语音识别、增强和分离算法对多路语音信号的相对时延有较高要求(<10ms)，因此，本发明中还采用了基于白噪声谱相关的对齐方法，在录制实际语音之前先播放并录制一段白噪声，以准确识别语音录制的起始点，便于控制后续语音识别过程中的时延。

本发明在真实的会议场景中采集的远场阵列数据，含有真实的房间冲击响应、混响系数；同步含有真实场景的多说话人语音重叠部分，同时针对说话人的近讲麦克风作为参考，也可以为语音增强和分离算法提供有效训练和参考数据。

再者，本发明采用对针对说话人的近讲语音进行语音标注，赋值给时间同步的其他设备的远场语音，能够为语音识别提供更加准确的数据标注。

与上述会议系统语音数据采集方法相对应，本发明还提供一种会议系统语音数据采集装置。图5示出了根据本发明实施例的会议系统语音数据采集装置的功能模块。

如图5所示，本发明提供的会议系统语音数据采集装置的500可以安装于电子设备中。根据实现的功能，所述会议系统语音数据采集装置可以包括语音数据集采集单元510、语噪同步单元520、标注单元530和仿真含噪语音数据构建单元540。本发所述单元也可以称之为模块，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

语音数据集采集单元510，用于通过远场麦克风阵列和近场麦克风在会议现场实时采集会议系统的语音数据，以得到语音数据集.

具体的，语音数据集采集单元510包括远场麦克风阵列、近场麦克风、手机等音频采集设备(图中未示出)。在会议现场进行会议系统语音数据集语音录制的过程中，与会者需要佩戴近场麦克风，通过近场麦克风准确记录每一个发言人的语音数据。该近场麦克风可以是头戴式近讲麦克风，也可以是手持式近讲麦克风。

同时，现场采集记录房间长宽高几何信息，记录与会者几何坐标信息、麦克风阵列和手机几何坐标信息，以便根据会议现场实际情况合理设置远场麦克风阵列，以及在后期录制仿真噪声集时通过这些参数保证两次录制时的录制环境相同。另外，还要记录会议设备和与会人员位置的坐标信息，作为数据集的未标注信息，为后续麦克风阵列算法(方向性估计)提供真实参考方向数据。

为了后续录制语音的识别，在会议开始录音时,还需要播放同步白噪声，以在采集现场与会者的语音数据的同时采集会场的同步白噪声的声音，使得采集的语音数据集中同时包含所述会议现场的同步白噪声。因此，该语音数据集采集单元510还可以进一步包括同步白噪声播放器(图中未示出)，如扬声器等。

更为具体的，远场麦克风阵列可以包含一个环形麦克风阵列和一个线性麦克风阵列，环形麦克风阵列布置在会议室中间位置(若会议室直径长度超过10m，可布置多个环形麦克风阵列)，线性麦克风阵列布置在会议室投屏或者显示器一侧。进一步，布置在会议室中间位置的环形麦克风阵列可以为6通道的环形麦克风阵列，布置在最左侧的线性麦克风阵列为4通道的麦克风阵列，上述6通道和4通道的麦克风阵列中，一般只采用第一通道进行语音的采集录制。

语噪同步单元520，用于将语音数据集采集单元510所采集的语音数据集与预先录制的仿真噪声集进行时间同步处理，获取同步后的语噪同步数据集。

由于需要用到预先录制的仿真噪声集，语噪同步单元520还可以包括仿真噪声集采集单元521，仿真噪声集采集单元521用于会议系统语音数据集的仿真噪声的录制，为了保障录制环境的完全一致，仿真噪声集采集单元521在会议结束后保留原会议现场的录制环境以录制仿真噪声集。

具体的，可以在会议结束后，保留原会议现场的麦克风阵列和手机坐标。在仿真噪声集采集单元521采集仿真噪声集之前，要先行播放白噪声，以使得录音同步声音，此时可以由上述同步白噪声播放器播放与前述采集语音数据集时播放的同步白噪声一致，采用播放时长30s、声压级80dBA的白噪声@MRP(mouth refence point)。

仿真噪声集主要包括仿真弥散声场噪声和点声源噪声，因此，在本发明的一个具体实施方式中，仿真噪声集采集单元521包括仿真弥散声场声源和点声场声源(图中未示出)。仿真弥散声场声源通过布置在会议现场的四个角落的扬声器实现，各组扬声器播放由事先录制的噪声数据。

作为优选的实现方案，本发明中简化了噪声的仿真播放方法，由四组扬声器分别朝向墙面或者玻璃面的方式进行仿真。其中的弥散声源类型包括汽车噪声、空调噪声等。点声场声源实现点声源噪声的仿真播放，可以随机选择一个扬声器播放预先录制的点声源噪声，该点声源噪声类型可以为日常电视广播、音乐、敲击声等。分别播放同步白噪声、仿真弥散声场噪声和点声源噪声的过程中，在播放声压级80dBA@MRP(mouth refence point)的环境下录制本会议室的仿真噪声集。

由仿真噪声集采集单元521录制采集的同步白噪声、仿真弥散声场噪声和点声源噪声，形成了优化前述语音数据集的仿真噪声集。

仿真噪声集采集单元521所录制采集的仿真噪声集，与同样声学和设备位置条件下的语音数据集进行数字上的叠加，就可以构建仿真真实环境的含噪语音集。其中，幅度的叠加比例额，即信噪比，可由具体的实验环境设定。

具体的，作为示例，语噪同步单元520通过前述同步过程S1221～S1126，各选取每组麦克风阵列的第一通道语音，以近场的头戴式耳麦、手机的第一通道为参考，分别进行功率谱互相关，选取峰值得到设备间相对时延，使用sox、ffmepg、audacity等音频编辑工具，进行相对时延切分，进而对齐。

具体的，作为示例，语噪同步单元520还可以包括：

对齐模块：用于将现场所有音频采集设备所采集的音频数据(包括近讲麦克风数据、远场环形麦克风数据、远场线性麦克风数据和手机数据)，即语音数据集和仿真噪声集，进行手动对齐，形成语音同步数据，其中，将所述语音同步数据的时延控制在1s以内；

分帧加窗模块：用于对所述语音同步数据进行分帧、加窗处理；其中，设置1窗长，200s帧移；

FFT模块：用于对分帧加窗后的语音同步数据进行4096点FFT(fast Fouriertransform，快速傅里叶变换)；

时延估计模块：用于通过下述公式确定FFT后的语音同步数据的每个窗口的时延估计；

评估模块：用于通过评估30s时延稳定性和时延估计，确定所述语音同步数据的同步时延；

同步调整模块：用于根据上述同步时延调整语音同步数据中的各语音数据，以使所述语音数据集和仿真噪声集的时间同步，得到语噪同步数据集。

标注单元530，用于对所述语噪同步数据集进行分段时间信息标注和文字标注.

具体的，作为示例，标注单元530进一步包括近场标注单元和远场标注单元(图中未示出)，其中，近场标注单元用于对通过近讲麦克风所采集的语音数据进行分段时间信息标注和文字标注，形成近场标注信息；远场标注单元用于以上述近场标注信息作为对通过远场麦克风采集的语音数据集进行分段时间信息标注和文字标注的信息。

标注完通过近场麦克风采集的语音数据后，由于远场麦克风阵列和头戴式近场麦克风所录制的物理声源是一致的，且在语噪同步单元520已经将这两种语音数据进行对齐，因此，标注的近场麦克风采集的语音数据的分段时间信息和文字即为远场麦克风阵列的分段时间信息标注和文字标注的信息。

仿真含噪语音数据构建单元540，用于根据所述语噪同步数据集和所标注的分段时间信息和文字，构建仿真含噪语音数据。

需要说明的是，会议系统语音数据采集装置500的实施例可参考会议系统语音数据采集方法实施例中的描述，此处不再一一赘述。

如图6所示，是本发明实现会议系统语音数据采集方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如会议系统语音数据采集程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如会议系统语音数据采集程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如会议系统语音数据采集程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图6仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图6示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11为计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的会议系统语音数据采集方法。具体的，作为示例，存储器11中存储的会议系统语音数据采集程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

对所述语噪同步数据集进行分段时间信息标注和文字标注；

可选地，所述在会议现场实时采集会议系统的语音数据的过程中：

可选地，还包括设置所述远场麦克风阵列的步骤，其中，所述设置所述远场麦克风阵列的步骤包括：在所述会议现场中间位置设置环形麦克风阵列；以及，在所述会议现场的投屏或者显示器一侧设置线性麦克风阵列。

可选地，所述仿真噪声集在会议结束后保留所述会议现场的录制环境录制；其中，所述仿真噪声集的录制步骤包括：

对所述语音同步数据进行分帧、加窗处理；

对分帧加窗后的语音同步数据进行4096点FFT处理；

确定FFT处理后的语音同步数据的每个窗口的时延估计；

可选地，所述对所述语噪同步数据集进行分段时间信息标注和文字标注的步骤包括：对通过所述近讲麦克风采集的语音数据集进行分段时间信息标注和文字标注，形成近场标注信息；

以所述近场标注信息作为对通过所述远场麦克风采集的语音数据集进行分段时间信息标注和文字标注的信息。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种会议系统语音数据采集方法，应用于电子装置，其特征在于，所述方法包括：

对所述语噪同步数据集进行分段时间信息标注和文字标注；

2.如权利要求1所述的会议系统语音数据采集方法，其特征在于，所述在会议现场实时采集会议系统的语音数据的步骤，具体包括：

3.如权利要求1所述的会议系统语音数据采集方法，其特征在于，还包括设置所述远场麦克风阵列的步骤，所述设置所述远场麦克风阵列的步骤包括：

在所述会议现场中间位置设置环形麦克风阵列；以及在所述会议现场的投屏或者显示器一侧设置线性麦克风阵列。

4.如权利要求1所述的会议系统语音数据采集方法，其特征在于，所述仿真噪声集在会议结束后保留所述会议现场的录制环境录制；其中，所述仿真噪声集的录制的步骤包括：

5.如权利要求4所述的会议系统语音数据采集方法，其特征在于，

通过布置在所述会议现场四个角落的扬声器组播放所述仿真弥散声场噪声；其中，所述扬声器组分别朝向所述会议现场的墙面或者玻璃面播放所述仿真弥散声场噪声。

6.如权利要求1所述的会议系统语音数据采集方法，其特征在于，所述将所述语音数据集与预先录制的仿真噪声集进行时间同步处理的步骤，具体包括：

对所述语音同步数据进行分帧、加窗处理；

对分帧加窗后的语音同步数据进行4096点FFT处理；

确定FFT处理后的语音同步数据的每个窗口的时延估计；

7.如权利要求1所述的会议系统语音数据采集方法，其特征在于，所述对所述语噪同步数据集进行分段时间信息标注和文字标注的步骤，具体包括：

对通过所述近场麦克风采集的语音数据集进行分段时间信息标注和文字标注，形成近场标注信息；

8.一种会议系统语音数据采集装置，其特征在于，所述装置包括：

语音数据集采集单元，用于通过远场麦克风阵列和近场麦克风在会议现场实时采集会议系统的语音数据，以得到语音数据集；其中，所述语音数据集中同时包含所述会议现场的同步白噪声；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的会议系统语音数据采集方法中的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的会议系统语音数据采集方法。