CN111489755A

CN111489755A - 一种语音识别方法及装置

Info

Publication number: CN111489755A
Application number: CN202010285556.5A
Authority: CN
Inventors: 邢越峰; 陈孝良; 苏少炜; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-04

Abstract

本发明涉及语音识别领域，公开了一种语音识别方法及装置，用于提高识别效率，该方法包括：将目标区域中各个麦克风在同一时刻采集到的音频数据封装为相应的音频数据包，分别基于目标区域中各个与会者的声源方向，对音频数据包进行方向性音频提纯处理，生成各个声源方向各自对应的音频处理数据；再分别读取各个音频处理数据，每读取一个音频处理数据，确定从该音频处理数据中提取到有效数据时，将该音频处理数据对应的声源方向的与会者，确定为该音频处理数据的发言者。麦克风指向的方向与与会者的声源方向越接近，对应的音频处理数据越纯净、越清晰，因此，根据声源方向快速确定出音频处理数据的发言者，提高了识别效率。

Description

一种语音识别方法及装置

技术领域

本发明涉及语音识别领域，特别涉及一种语音识别方法及装置。

背景技术

通常，会将政府机关或者企事业单位的会议内容，由音频格式转换为文字格式，以便保存、共享会议内容，若人工整理会议内容，不仅提高了人工成本，还会随着召开会议的数量增加，降低会议转写的工作效率。因此，具有语音识别功能的会议转写系统，被大量应用在政府机关或者企事业单位等场景下，完成会议内容的整理工作。

采用会议转写系统整理会议内容的过程如下：采用基于到达时间差的声源定位技术，确定麦克风阵列发送的各个音频数据的声源方向，并基于各个声源方向处理对应的音频数据，得到多个处理后的音频数据；再分别将各个处理后的音频数据和所有与会者的声纹信息进行对比，分别确定各个处理后的音频数据各自对应的发言者，以及采用语音转换模型，得到各个处理后的音频数据对应的文字内容，并呈现各个发言者和对应的文字内容。

但是，在实际应用上述会议转写系统时，需要通过与会者朗读文本的方式，提前采集所有与会者的声纹信息，不利于系统的快速搭建；而且，处理后的音频数据需要和所有与会者的声纹信息进行对比，才可以确定出对应的发言者，降低了识别效率。

有鉴于此，需要设计一种新的语音识别方法，以克服上述缺陷。

发明内容：

本发明提供一种语音识别方法及装置，用于提高识别效率。

第一方面，本发明实施例提供了一种语音识别方法，包括：

将目标区域中各个麦克风在同一时刻采集到的音频数据封装为相应的音频数据包；

分别基于所述目标区域中各个与会者的声源方向，对所述音频数据包进行方向性音频提纯处理，生成各个声源方向各自对应的音频处理数据；

分别读取各个音频处理数据，其中，每读取一个音频处理数据，确定从所述一个音频处理数据中提取到有效数据时，将所述一个音频处理数据对应的声源方向的与会者，确定为所述一个音频处理数据的发言者。

可选的，通过下列方式确定各个与会者的声源方向：

以所述各个麦克风中指定基准麦克风所在的位置为原点，以所述基准麦克风指向的方向为X轴正方向，建立平面直角坐标系；

分别计算预设的各个与会者的位置与所述初始麦克风之间的夹角，并将各个夹角确定为相应的与会者的声源方向。

可选的，基于所述目标区域中任意一个与会者的声源方向，对所述音频数据包进行方向性音频提纯处理，生成所述任意一个声源方向对应的一个音频处理数据，包括：

将所述任意一个与会者的声源方向，确定为所述音频数据包的目标语音信号方向；

采用预设的降噪算法，对所述音频数据包的其他语音信号方向进行噪声抑制处理；

针对已降噪的音频数据包，按照所述目标语音信号方向进行信号放大处理，得到对应的所述一个音频处理数据。

可选的，每读取一个音频处理数据，确定从所述一个音频处理数据中提取到有效数据，包括：

采用语音端点检测技术，从所述一个音频处理数据中确定出语音起始点和语音结束点时，则将处于所述语音起始点和所述语音结束点之间的音频处理数据，确定为有效数据。

可选的，将所述一个音频处理数据对应的声源方向的与会者，确定为所述一个音频处理数据的发言者之后，进一步包括：

采用预设的语音转换模型，对所述一个音频处理数据的有效数据进行识别，得到对应的文字内容；

将所述一个音频处理数据的发言者的标识，以及所述文字内容发送到终端上，以触发所述终端呈现所述发言者的标识和所述文字内容。

可选的，在采用预设的语音转换模型，对所述一个音频处理数据的有效数据进行识别，得到对应的文字内容之后，进一步包括：

采用预设的语言翻译模型，将所述文字内容翻译为其他语言的文字内容。

第二方面，本发明实施例还提供了一种语音识别装置，包括：

接收模块，用于将目标区域中各个麦克风在同一时刻采集到的音频数据封装为相应的音频数据包；

处理模块，用于分别基于所述目标区域中各个与会者的声源方向，对所述音频数据包进行方向性音频提纯处理，生成各个声源方向各自对应的音频处理数据；

确定模块，用于分别读取各个音频处理数据，其中，每读取一个音频处理数据，确定从所述一个音频处理数据中提取到有效数据时，将所述一个音频处理数据对应的生源方向的与会者，确定为所述一个音频处理数据的发言者。

可选的，通过下列方式确定各个与会者的声源方向，所述处理模块进一步用于：

分别计算预设的各个与会者的位置与所述基准麦克风之间的夹角，并将各个夹角确定为相应的与会者的声源方向。

可选的，基于所述目标区域中任意一个与会者的声源方向，对所述音频数据包进行方向性音频提纯处理，生成所述任意一个声源方向对应的一个音频处理数据，所述处理模块用于：

可选的，每读取一个音频处理数据，确定从所述一个音频处理数据中提取到有效数据，所述处理模块用于：

可选的，将所述一个音频处理数据对应的声源方向的与会者，确定为所述一个音频处理数据的发言者之后，所述确定模块进一步用于：

可选的，在采用预设的语音转换模型，对所述一个音频处理数据的有效数据进行识别，得到对应的文字内容之后，所述确定模块进一步用于：

第三方面，本发明实施例还提供了一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述任一项语音识别方法。

第四方面，本发明实施例还提供了一种存储介质，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行上述任一项语音识别方法。

本发明实施例中，将目标区域中各个麦克风在同一时刻采集到的音频数据封装为相应的音频数据包，分别基于目标区域中各个与会者的声源方向，对音频数据包进行方向性音频提纯处理，生成各个声源方向各自对应的音频处理数据；再分别读取各个音频处理数据，每读取一个音频处理数据，确定从该音频处理数据中提取到有效数据时，将该音频处理数据对应的声源方向的与会者，确定为该音频处理数据的发言者。各个麦克风可采集在同一时刻发言的与会者的音频数据，但麦克风指向的方向与与会者的声源方向越接近，麦克风所采集到的音频数据在经过声源方向的处理之后，得到的音频处理数据越纯净、越清晰。因此，可以直接根据声源方向确定出音频处理数据的发言者，无需进行声纹对比确定发言者，无需提前采集所有与会者的声纹信息，节省了系统搭建时间，快速确定出对应的发言者，提高了识别效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音识别系统的架构示意图；

图2为本发明实施例提供的一种语音识别的流程示意图；

图3为本发明实施例提供的以基准麦克风所在的位置为原点建立的平面直角坐标系；

图4为本发明实施例提供的一种语音识别装置的结构示意图；

图5为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

在本发明实施例中，为提高识别效率提供了一种新的解决方案。该方案为：将目标区域中各个麦克风在同一时刻采集到的音频数据封装为相应的音频数据包，分别基于目标区域中各个与会者的声源方向，对音频数据包进行方向性音频提纯处理，生成各个声源方向各自对应的音频处理数据；再分别读取各个音频处理数据，每读取一个音频处理数据，确定从该音频处理数据中提取到有效数据时，将该音频处理数据对应的声源方向的与会者，确定为该音频处理数据的发言者。

下面结合附图对本发明优选的实施方式作出详细说明。

参阅图1所示，本发明实施例提供了一种语音识别系统，该系统中包括由多个麦克风组成的麦克风阵列、围绕在麦克风阵列周围的各个与会者的位置，以及分别与麦克风阵列和终端连接的计算节点。其中，麦克风阵列用于采集与会者的音频数据，并向计算节点发送音频数据；计算节点用于确定麦克风阵列发送的音频数据所对应的发言者，以及实现语音转文字、实时翻译等功能，得到音频数据对应的文字内容，并向终端发送对应的声源方向的与会者的标识和文字内容；终端用于向用户呈现与会者的标识和文字内容。

参阅图2所示，本发明实施例提供了一种语音识别方法，具体过程如下：

S201：将目标区域中各个麦克风在同一时刻采集到的音频数据封装为相应的音频数据包。

本发明实施例中，计算节点可以将各个麦克风在同一时刻采集到的音频数据，封装为一个音频数据包；还可以将麦克风阵列划分为多组，位于同一组的麦克风在同一时刻采集到的音频数据封装为一个音频数据包，因此，计算节点最终得到多个音频数据包。

例如，计算节点将同一区域中8个麦克风在第3～10秒采集到的音频数据封装为音频数据包a；

又例如，计算节点将同一区域中第1～3个麦克风划分为第一组，第4～6个麦克风划分为第二组，第7～8个麦克风划分为第三组，那么，计算节点将第一组的3个音频数据封装为音频数据包b，将第二组的3个音频数据封装为音频数据包c，将第三组的2个音频数据封装为音频数据包d。

S202：分别基于目标区域中各个与会者的声源方向，对音频数据包进行方向性音频提纯处理，生成各个声源方向各自对应的音频处理数据。

在执行S202之前，计算节点基于各个与会者的位置和麦克风阵列，确定各个与会者的声源方向，具体步骤描述如下：

A1：以各个麦克风中指定基准麦克风所在的位置为原点，以基准麦克风指向的方向为X轴正方向，建立平面直角坐标系。

A2：分别计算预设的各个与会者的位置与基准麦克风之间的夹角，并将各个夹角确定为相应的与会者的声源方向。

例如，基准麦克风建立如图3所示的平面直角坐标系，针对任意一个与会者的位置执行以下操作：先确定基准麦克风和位于X轴正方向上的参照物之间的第一相对距离，以及基准麦克风与与会者的位置之间的第二相对距离；再基于第一相对距离和第二相对距离，确定与会者的位置与基准麦克风质之间的夹角，并将夹角确定为与会者的声源方向。

本发明实施例中，计算节点可采用串行或者并行的处理方式，通过各个与会者的声源方向分别对音频数据包进行处理，若采用串行处理方式，则计算节点基于上一个与会者的声源方向，对音频数据包处理完毕之后，再基于下一个与会者的声源方向对音频数据包进行处理，这样处理效率较低，因此，本发明实施例的计算节点将并行处理方式作为最优实施方式，即计算节点基于各个与会者的声源方向同时对音频数据包进行处理，提高处理效率。

其中，若计算节点将各个麦克风在同一时刻采集到的音频数据，封装为一个音频数据包，则计算节点基于各个与会者的声源方向同时对所述一个音频数据包进行方向性音频提纯处理；若计算节点将麦克风阵列划分为多组，把位于同一组的麦克风在同一时刻采集到的音频数据封装为一个音频数据包，最终得到多个音频数据包，则计算节点基于各个与会者的声源方向，针对多个音频数据包同时执行以下循环过程，直至所有音频数据包全部处理完毕为止：计算节点从多个音频数据包中读取一个音频数据包X，并基于一个与会者的声源方向对音频数据包X进行方向性音频提纯处理。

可选的，基于目标区域中任意一个与会者的声源方向，对音频数据包进行方向性音频提纯处理，生成任意一个声源方向对应的一个音频处理数据的过程如下：

B1：将任意一个与会者的声源方向，确定为音频数据包的目标语音信号方向。

B2：采用预设的降噪算法，对音频数据包的其他语音信号方向进行噪声抑制处理。

具体地，采用降噪算法，抑制其他语音信号方向的音频能量，提高语音信号方向的音频能量，实现降噪的目的。

B3、针对已降噪的音频数据包，按照目标语音信号方向进行信号放大处理，得到对应的一个音频处理数据。

根据各个与会者的声源方向，对音频数据包进行语音增强处理，去除噪声，得到与声源方向对应的纯净的音频处理数据，以便进一步确定音频处理数据的发言者，以及使用语音转换模型得到与音频处理数据对应的文字内容，舍弃冗余无效数据，提高识别效率和识别准确率。

S203：分别读取各个音频处理数据，其中，每读取一个音频处理数据Y，确定从音频处理数据Y中提取到有效数据时，将音频处理数据Y对应的声源方向的与会者，确定为音频处理数据Y的发言者。

可选的，每读取一个音频处理数据Y，确定从音频处理数据Y中提取到有效数据的过程如下：

采用语音端点检测技术，从音频处理数据Y中确定出语音起始点和语音结束点时，则将处于语音起始点和语音结束点之间的音频处理数据，确定为有效数据。

例如，音频处理数据共有100帧，以连续20帧为一组进行探测，若第1～20帧的总能量值低于设定能量值阈值时，则舍弃第1～20帧的音频处理数据；若第21～40帧的总能量值达到设定能量值阈值时，将第21帧确定为语音起始点；若第41～60帧的总能量值，以及第61～80帧的总能量值均达到设定能量值阈值，但第81～100帧的总能量值低于设定能量值阈值时，将第81帧确定为语音结束点，并将第21～81帧之间的音频处理数据，确定为有效数据。

各个麦克风可采集在同一时刻发言的与会者的音频数据，但麦克风指向的方向与与会者的声源方向越接近，麦克风所采集到的音频数据在经过语音增强处理和语音端点检测之后，得到的音频处理数据越纯净、越清晰，由于计算节点预先确定了各个与会者的位置，因此，可以直接根据声源方向确定出音频处理数据的发言者，无需进行声纹对比确定发言者，无需提前采集所有与会者的声纹信息，节省了系统搭建时间，快速确定出对应的发言者，提高了识别效率。由于各个麦克风可采集在同一时刻发言的与会者的音频数据，因此，计算节点最终确定的音频数据的发言者可以是其中一名与会者，也可以是多名与会者。

可选的，在确定出音频处理数据Y对应的发言者之后，进一步包括：

先采用预设的语音转换模型，对音频处理数据Y的有效数据进行识别，得到对应的文字内容；再将音频处理数据Y的发言者的标识，以及文字内容发送到终端上，以触发所述终端呈现发言者的标识和文字内容。其中，与会者的标识可以为与会者的姓名、照片或者其他能够表明与会者身份的标识，在此不作过多限定。

可选的，在确定出有效数据对应的文字内容之后，进一步地，采用预设的语言翻译模型，将文字内容翻译为其他语言的文字内容，实现实时翻译的功能。

基于同一发明构思，本发明实施例中，提供一种语音识别装置，参阅图4所示，至少包括接收模块401、处理模块402和确定模块403，其中，

接收模块401，用于将目标区域中各个麦克风在同一时刻采集到的音频数据封装为相应的音频数据包；

处理模块402，用于分别基于所述目标区域中各个与会者的声源方向，对所述音频数据包进行方向性音频提纯处理，生成各个声源方向各自对应的音频处理数据；

确定模块403，用于分别读取各个音频处理数据，其中，每读取一个音频处理数据，确定从所述一个音频处理数据中提取到有效数据时，将所述一个音频处理数据对应的生源方向的与会者，确定为所述一个音频处理数据的发言者。

可选的，通过下列方式确定各个与会者的声源方向，所述处理模块402进一步用于：

可选的，基于所述目标区域中任意一个与会者的声源方向，对所述音频数据包进行方向性音频提纯处理，生成所述任意一个声源方向对应的一个音频处理数据，所述处理模块402用于：

可选的，每读取一个音频处理数据，确定从所述一个音频处理数据中提取到有效数据，所述处理模块402用于：

可选的，将所述一个音频处理数据对应的声源方向的与会者，确定为所述一个音频处理数据的发言者之后，所述确定模块403进一步用于：

可选的，在采用预设的语音转换模型，对所述一个音频处理数据的有效数据进行识别，得到对应的文字内容之后，所述确定模块403进一步用于：

基于同一发明构思，本发明实施例中，提供一种计算设备，参阅图5所示，至少包括存储器501和至少一个处理器502，其中，存储器501和处理器502通过通信总线完成相互间的通信；

存储器501用于存储程序指令；

处理器502用于调用存储器501中存储的程序指令，按照获得的程序执行前述语音识别方法。

基于同一发明构思，本发明实施例中，提供一种存储介质，至少包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行前述语音识别方法。

综上所述，本发明实施例中，将目标区域中各个麦克风在同一时刻采集到的音频数据封装为相应的音频数据包，分别基于目标区域中各个与会者的声源方向，对音频数据包进行方向性音频提纯处理，生成各个声源方向各自对应的音频处理数据；再分别读取各个音频处理数据，每读取一个音频处理数据，确定从该音频处理数据中提取到有效数据时，将该音频处理数据对应的声源方向的与会者，确定为该音频处理数据的发言者。

各个麦克风可采集在同一时刻发言的与会者的音频数据，但麦克风指向的方向与与会者的声源方向越接近，麦克风所采集到的音频数据在经过语音增强处理和语音端点检测之后，得到的音频处理数据越纯净、越清晰，由于计算节点预先确定了各个与会者的位置，因此，可以直接根据声源方向确定出音频处理数据的发言者，无需进行声纹对比确定发言者，无需提前采集所有与会者的声纹信息，节省了系统搭建时间，快速确定出对应的发言者，提高了识别效率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，通过下列方式确定各个与会者的声源方向：

3.如权利要求1所述的方法，其特征在于，基于所述目标区域中任意一个与会者的声源方向，对所述音频数据包进行方向性音频提纯处理，生成所述任意一个声源方向对应的一个音频处理数据，包括：

4.如权利要求1所述的方法，其特征在于，每读取一个音频处理数据，确定从所述一个音频处理数据中提取到有效数据，包括：

5.如权利要求1～4任一所述的方法，其特征在于，将所述一个音频处理数据对应的声源方向的与会者，确定为所述一个音频处理数据的发言者之后，进一步包括：

6.如权利要求5所述的方法，其特征在于，在采用预设的语音转换模型，对所述一个音频处理数据的有效数据进行识别，得到对应的文字内容之后，进一步包括：

7.一种语音识别装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，通过下列方式确定各个与会者的声源方向，所述处理模块进一步用于：

9.如权利要求7所述的装置，其特征在于，基于所述目标区域中任意一个与会者的声源方向，对所述音频数据包进行方向性音频提纯处理，生成所述任意一个声源方向对应的一个音频处理数据，所述处理模块用于：

10.如权利要求7所述的装置，其特征在于，每读取一个音频处理数据，确定从所述一个音频处理数据中提取到有效数据，所述处理模块用于：

11.如权利要求7～10任一所述的装置，其特征在于，将所述一个音频处理数据对应的声源方向的与会者，确定为所述一个音频处理数据的发言者之后，所述确定模块进一步用于：

12.如权利要求11所述的装置，其特征在于，在采用预设的语音转换模型，对所述一个音频处理数据的有效数据进行识别，得到对应的文字内容之后，所述确定模块进一步用于：

13.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1-6任一项所述的方法。

14.一种存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如权利要求1-6任一项所述的方法。