CN111883168A

CN111883168A - 一种语音处理方法及装置

Info

Publication number: CN111883168A
Application number: CN202010774554.2A
Authority: CN
Inventors: 李健; 沈忱; 王玉好; 梁志婷
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-03
Anticipated expiration: 2040-08-04
Also published as: CN111883168B

Abstract

本发明提供了一种语音处理方法及装置，该方法包括：获取麦克风阵列采集的多路语音数据，其中，所述麦克风阵列包括多个麦克风，每个麦克风采集的语音数据携带有麦克标识；确定所述多路语音数据的声音强度；根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离，可以解决相关技术中在环境音复杂的场景中无法正确分离语音的问题，通过使用多个定向麦克风阵列的方式，在适当嘈杂的环境中，分离说话人的声音。

Description

一种语音处理方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种语音处理方法及装置。

背景技术

当前市面上需要进行语音分离的录音器多用在安静环境(如：汽车内)或者背景音规律环境(如：看电视)，分离方式多为二维水平摆放或者一维水平摆放，使用2个～6个MIC通过声音的传播速度判断声音的方向与类型(人声、噪音)从而分离出不同方向人的声音(音轨)。按以上方式在复杂环境(服务场所)背景音会变化的场景会导致无法正确的分离出人声(掺杂噪音，环境音)。

针对相关技术中在环境音复杂的场景中无法正确分离语音的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种语音处理方法及装置，以至少解决相关技术中在环境音复杂的场景中无法正确分离语音的问题。

根据本发明的一个实施例，提供了一种语音处理方法，包括：

获取麦克风阵列采集的多路语音数据，其中，所述麦克风阵列包括多个麦克风，每个麦克风采集的语音数据携带有麦克标识；

确定所述多路语音数据的声音强度；

根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离。

可选地，根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离包括：

确定所述多路语音数据中每两路语音数据的声音强度的差值；

将小于预设阈值的所述声音强度的差值对应的两路语音数据进行音轨合并，得到合并后的目标音轨。

将所述多路语音数据进行文字转换，得到多个语音文本；

获取所述多个语音文本中文字数量最多的两个语音文本；

将所述两个语音文本进行合并，得到合并语音文本；

将所述合并语音文本转换为合并后的目标音轨。

可选地，在根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离之后，所述方法还包括：

将所述目标音轨进行文字转换，得到目标语音文本。

将所述目标音轨进行声纹识别，得到多个目标对象的音频数据；

将所述多个目标对象的音频数据与所述目标语音文本进行关联，得到所述多个目标对象的音频数据与语音文本。

根据预先存储的麦克标识与位置信息的对应关系确定所述目标音轨对应的两个麦克标识对应的位置；

根据所述两个麦克标识对应的位置确定为所述目标音轨对应的目标对象的位置；

驱动视频采集装置聚焦所述目标对象的位置。

根据本发明的另一个实施例，还提供了一种语音处理装置，包括：

获取模块，用于获取麦克风阵列采集的多路语音数据，其中，所述麦克风阵列包括多个麦克风，每个麦克风采集的语音数据携带有麦克标识；

确定模块，用于确定所述多路语音数据的声音强度；

分离模块，用于根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离。

可选地，所述分离模块包括：

确定单元，用于确定所述多路语音数据中每两路语音数据的声音强度的差值；

第一合并单元，用于将小于预设阈值的所述声音强度的差值对应的两路语音数据进行音轨合并，得到合并后的目标音轨。

可选地，所述分离模块包括：

文字转换单元，用于将所述多路语音数据进行文字转换，得到多个语音文本；

获取单元，用于获取所述多个语音文本中文字数量最多的两个语音文本；

第二合并单元，用于将所述两个语音文本进行合并，得到合并语音文本；

转换单元，用于将所述合并语音文本转换为合并后的目标音轨。

可选地，所述装置还包括：

文字转换模块，用于将所述目标音轨进行文字转换，得到目标语音文本。

可选地，所述装置还包括：

声纹识别模块，用于将所述目标音轨进行声纹识别，得到多个目标对象的音频数据；

关联模块，用于将所述多个目标对象的音频数据与所述目标语音文本进行关联，得到所述多个目标对象的音频数据与语音文本。

可选地，所述装置还包括：

确定模块，用于根据预先存储的麦克标识与位置信息的对应关系确定所述目标音轨对应的两个麦克标识对应的位置；

确定模块，用于根据所述两个麦克标识对应的位置确定为所述目标音轨对应的目标对象的位置；

聚焦模块，用于驱动视频采集装置聚焦所述目标对象的位置。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取麦克风阵列采集的多路语音数据，其中，所述麦克风阵列包括多个麦克风，每个麦克风采集的语音数据携带有麦克标识；确定所述多路语音数据的声音强度；根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离，可以解决相关技术中在环境音复杂的场景中无法正确分离语音的问题，通过使用多个定向麦克风阵列的方式，在适当嘈杂的环境中，分离说话人的声音。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的语音处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的语音处理方法的流程图；

图3是根据本发明实施例的语音处理装置的框图；

图4是根据本发明优选实施例的语音处理装置的框图一；

图5是根据本发明优选实施例的语音处理装置的框图二。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的语音处理方法的移动终端的硬件结构框图，如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的语音处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

基于上述的移动终端或网络架构，本实施例提供了一种语音处理方法，图2是根据本发明实施例的语音处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取麦克风阵列采集的多路语音数据，其中，所述麦克风阵列包括多个麦克风，每个麦克风采集的语音数据携带有麦克标识；

本发明实施例中，多个麦克风，分别固定设置在设定空间内的任意位置，设定空间具体可以是会议室等场所，用于采集设定空间内的语音数据，其中多个麦克风可以相等的设定间距均匀分布在设定空间内，也可以非均匀分布在设定空间内，麦克风阵列可以用于采集会议室的会议内容。

步骤S204，确定所述多路语音数据的声音强度；

具体的，对于采集得到的语音数据，分别确定每路语音数据的声音强度。

步骤S206，根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离。

在一可选的实施例中，上述步骤S206，根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离具体可以包括：确定所述多路语音数据中每两路语音数据的声音强度的差值；将小于预设阈值的所述声音强度的差值对应的两路语音数据进行音轨合并，得到合并后的目标音轨，即声音强度差值较小的两路语音数据为同一个目标对象的语音的可能性较大，将声音强度差值较小的两路语音数据合并，得到。

在另一可选的实施例中，上述步骤S206，根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离具体还可以包括：将所述多路语音数据进行文字转换，得到多个语音文本；获取所述多个语音文本中文字数量最多的两个语音文本；将所述两个语音文本进行合并，得到合并语音文本；将所述合并语音文本转换为合并后的目标音轨。

通过上述步骤S202至S206，获取麦克风阵列采集的多路语音数据，其中，所述麦克风阵列包括多个麦克，每个麦克采集的语音数据携带有麦克标识；确定所述多路语音数据的声音强度；根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离，可以解决相关技术中在环境音复杂的场景中无法正确分离语音的问题，通过使用多个定向麦克风阵列的方式，在适当嘈杂的环境中，也可分离说话人的声音。

在一实施例中，在根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离之后，将所述目标音轨进行文字转换，得到目标语音文本，以便于后续存储说话人的语音数据以及对应语音文本。

在另一实施例中，在根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离之后，将所述目标音轨进行声纹识别，得到多个目标对象的音频数据；将所述多个目标对象的音频数据与所述目标语音文本进行关联，得到所述多个目标对象的音频数据与语音文本。

在另一实施例中，在根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离之后，根据预先存储的麦克标识与位置信息的对应关系确定所述目标音轨对应的两个麦克标识对应的位置；根据所述两个麦克标识对应的位置确定为所述目标音轨对应的目标对象的位置，驱动视频采集装置聚焦所述目标对象的位置，即可以驱动时间采集装置聚焦到当前正在说话的目标对象，可以实现对说话人的视频与音频的统一采集。可以实现对会议内容进行记录和分析，包括在记录过程中进行分析，例如，在跟踪到发言人(即当前说话人)在演示文档时，将跟踪用的摄像装置聚焦到演示文档，或者在检测到发言人发表评价时，通过麦克风陈列采集发言人的语音数据，进一步驱动摄像装置聚焦摄像焦点至发言人的位置。

在一可选的实施例中，还可以生成包括语音数据(即音频)和图像数据的结构化信息，通过与会者的移动终端显示生成的结构化信息，即可以采集会议场景中形成的音频和视频，进一步的，还可以采集会议过程中的分析内容，例如在检测到发言人切换时，根据麦克风陈列获取的声源位置确定与会者发言人位置，同时驱动摄像装置聚焦发言人使形成的结构化信息在显示时的发言人的音频与视频同步，在此过程中还能够使得与会者发言人在此过程中采用的演示文档时，根据发言人设置的操作而能够对当前显示切换至演示文档。

本发明示例性实施例中，在会议场景中布置多人会议系统，所述多人会议系统同样也包括远程加入会议的远程与会人员，例如会议的发起者邀请两个与会人员参加远程多人会议，在远程多人会议中同时传送音频和视频数据，而对于远程加入的与会者，在本发明示例性实施例的一种实施场景中，可通过对远程与会者的客户端虚拟相应的驱动单元、采集模块等实现对远程与会者的视频追踪、演示文档的追踪等。

本发明实施例，通过记录与分析得到会议场景的结构化信息，后续能够通过关键词定制化检索并获得与关键词相关的结构化信息，不仅能够在会议过程中对正在发言的说话人的位置、语音数据、视频图像等进行追踪，还能够得到与关键词相关的有效语音数据、与图像数据等，使得在会议之后能够更方便地获取会议数据。

本发明实施例中，基于麦克风阵列的语音分离方法，在所需录音的空间中布置麦克风阵列，每个麦克风设有编号，根据编号可确定麦克风的具体位置，从而可用于定位说话人的位置。麦克风阵列，在使用过程中，所有麦克风都为待机状态。提取某个角色音频通过比较每个MIC所采集语音的声音强度大小，定位讲话人的位置。

本发明实施例是将最大声音强度的多个MIC进行语音识别，相互之间差异小于一定阈值的并为一个音轨，最终保留差异性最大的多个音轨，具体包括以下步骤：

步骤1、合并最接近的两个音轨，得到多个定向麦录制后合成的完整音轨，具体包括：

同时将多路语音数据进行转写，具体的，将语音数据转换成文字，例：#1麦克输出ABC..FGH,#2麦克输出ABCDE…，#3麦克输出12388473；

将转写后字数最多，内容最接近的两个音轨叠加合并,例#1、#2输出有ABC一样，相同部分达到40％以上，于是将#1、#2音频合并，再次转写；再次转写合成后的音轨，得到完整的文字,例，#1、#2再次转写后的文本为ABCDEFGH，是一段完整的句子。

步骤2、循环步骤1，最终获得N个人(N<麦克风总数量)的语音文本及对应的音频文件，例：说话人A：ABCDEFGH，说话人B：12388473。

本发明实施例，适用于多用户场景中，可以有效的将每个用户的声音抽离。不限制用户在录音场景中的活动范围，精确定位每个用户讲话时的位置，隐蔽性好，具体包括：

1、通过定向麦克风采集最近的人的语音数据，由于距离最近，采集到语音数据的声音强度也最大。通过最大声音强度的声轨，获取人的语音数据。多人说话时，会出现多个高强度音轨。

2、人走动时，麦克风的强度会依次变化，当出现相临变化时，音轨合并为同一个音轨。

3、当出现多个强度相同且距离接近的音轨时(两个人距离比较接近)，通过语音识别(Automatic Speech Recognition，简称为ASR)转写，并互相计算错字率，错字率差别最大的被丢弃。

4、将收集到的多段语音经过声纹识别后，重新分类，合并、连接成段之后，再经过ASR进行转写。

实施例2

根据本发明的另一个实施例，还提供了一种语音处理装置，图3是根据本发明实施例的语音处理装置的框图，如图3所示，包括：

获取模块32，用于获取麦克风阵列采集的多路语音数据，其中，所述麦克风阵列包括多个麦克风，每个麦克风采集的语音数据携带有麦克标识；

确定模块34，用于确定所述多路语音数据的声音强度；

分离模块36，用于根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离。

图4是根据本发明优选实施例的语音处理装置的框图一，如图4所示，所述分离模块36包括：

确定单元42，用于确定所述多路语音数据中每两路语音数据的声音强度的差值；

第一合并单元44，用于将小于预设阈值的所述声音强度的差值对应的两路语音数据进行音轨合并，得到合并后的目标音轨。

图5是根据本发明优选实施例的语音处理装置的框图二，如图5所示，所述分离模块36包括：

文字转换单元52，用于将所述多路语音数据进行文字转换，得到多个语音文本；

获取单元54，用于获取所述多个语音文本中文字数量最多的两个语音文本；

第二合并单元56，用于将所述两个语音文本进行合并，得到合并语音文本；

转换单元58，用于将所述合并语音文本转换为合并后的目标音轨。

可选地，所述装置还包括：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取麦克风阵列采集的多路语音数据，其中，所述麦克风阵列包括多个麦克风，每个麦克风采集的语音数据携带有麦克标识；

S2，确定所述多路语音数据的声音强度；

S3，根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(RandomAccess Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S2，确定所述多路语音数据的声音强度；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，包括：

确定所述多路语音数据的声音强度；

2.根据权利要求1所述的方法，其特征在于，根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离包括：

3.根据权利要求1所述的方法，其特征在于，根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离包括：

将所述多路语音数据进行文字转换，得到多个语音文本；

获取所述多个语音文本中文字数量最多的两个语音文本；

将所述两个语音文本进行合并，得到合并语音文本；

将所述合并语音文本转换为合并后的目标音轨。

4.根据权利要求2或3所述的方法，其特征在于，在根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离之后，所述方法还包括：

将所述目标音轨进行文字转换，得到目标语音文本。

5.根据权利要求4所述的方法，其特征在于，在根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离之后，所述方法还包括：

6.根据权利要求2或3所述的方法，其特征在于，在根据所述多路语音数据的声音强度以及所述多路语音数据携带的麦克标识进行语音分离之后，所述方法还包括：

驱动视频采集装置聚焦所述目标对象的位置。

7.一种语音处理装置，其特征在于，包括：

确定模块，用于确定所述多路语音数据的声音强度；

8.根据权利要求7所述的装置，其特征在于，所述分离模块包括：

合并单元，用于将小于预设阈值的所述声音强度的差值对应的两路语音数据进行音轨合并，得到合并后的目标音轨。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6中任一项所述的方法。