CN111429914B

CN111429914B - 麦克风控制方法、电子装置及计算机可读存储介质

Info

Publication number: CN111429914B
Application number: CN202010235328.7A
Authority: CN
Inventors: 邬慷; 肖金平; 刘屹; 万正勇; 沈志勇
Original assignee: China Merchants Finance Technology Co Ltd
Current assignee: China Merchants Finance Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2023-04-18
Anticipated expiration: 2040-03-30
Also published as: CN111429914A

Abstract

本发明涉及智能控制技术领域，揭露了一种麦克风控制方法，该方法包括：根据预设用户群的字典矩阵对预设用户群的当前语音信息分解，得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据，将所述时域信号数据输入预先训练好的声纹识别模型，得到所述每个发言者的语音特征，当判断预设声纹库存储有某一指定发言者的语音特征时，获取所述指定发言者的标签，根据预先确定的麦克风与发言者的标签的映射关系，确定所述指定发言者的麦克风，并开启所述麦克风。本发明还提出一种电子装置以及一种计算机可读存储介质。本发明实现了智能化控制麦克风的开关。

Description

麦克风控制方法、电子装置及计算机可读存储介质

技术领域

本发明涉及智能控制技术领域，尤其涉及一种麦克风控制方法、电子装置及计算机可读存储介质。

背景技术

随着当前社会信息技术的发展，各企业对会议的要求与时俱进，此时智能会议应运而生，智能会议采用ASR(Automatic Speech Recognition，语音识别)技术将发言者的语音实时转换为文字信息，从而自动生成报告字幕、会议记录等，保证了会议的高效进行。

然而，现有技术中，无法实现麦克风开关的智能化控制，当前麦克风开关通常由人工控制，会议过程中存在以下问题：

1、人工频繁切换麦克风会破坏会议进程的连续性，打断与会者的发言思路；

2、人工控制麦克风开关难以保证语音输出的实时性、准确性，易导致语音转写为文字的准确率降低以及转写资源的浪费；

3、与会者发言时如果忘记开启麦克风，将导致会议数据不完整。

因此，为解决上述问题，亟需一种智能化控制麦克风开关的方案。

发明内容

鉴于以上内容，有必要提供一种麦克风控制方法，旨在实现智能化控制麦克风的开关。

本发明提供的麦克风控制方法，包括：

分解步骤：实时获取预设用户群的当前语音信息，根据所述预设用户群的字典矩阵对所述当前语音信息进行分解，得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据；

识别步骤：将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型，得到所述每个发言者的语音特征，判断预设声纹库是否存储有所述每个发言者的语音特征；

开启步骤：当判断所述预设声纹库存储有某一指定发言者的语音特征时，获取所述指定发言者的标签，根据预先确定的麦克风与发言者的标签的映射关系，确定所述指定发言者的麦克风，并开启所述麦克风。

可选的，所述方法在分解步骤前还包括：

构建步骤：收集所述预设用户群中每个用户的语音信息，计算所述预设用户群中每个用户的字典矩阵，并基于所述每个用户的字典矩阵构建所述预设用户群的字典矩阵。

可选的，所述方法在开启步骤后还包括：

关闭步骤：获取从各个已开启的麦克风输入的语音信息，对所述语音信息进行转写并对转写得到的文本信息进行有效性判断，若超过预设时间阈值从某一麦克风输入的语音信息所转写得到的文本信息皆为无效信息，则关闭所述麦克风。

可选的，所述根据所述预设用户群的字典矩阵对所述当前语音信息进行分解包括：

对所述当前语音信息的时域信号数据进行短时傅里叶变换，得到所述当前语音信息的频域信号数据；

对所述当前语音信息的频域信号数据取模数，得到所述当前语音信息的幅度谱；

根据所述预设用户群的字典矩阵对所述当前语音信息的幅度谱进行分解及有效性判断，得到所述预设用户群中参与发言的每个发言者的语音信息的幅度谱；

对所述每个发言者的语音信息的幅度谱进行过滤；

将过滤后的所述每个发言者的语音信息的幅度谱转换为所述每个发言者的语音信息的频域信号数据；

将所述每个发言者的语音信息的频域信号数据转换为所述每个发言者的语音信息的时域信号数据。

可选的，所述开启步骤还包括：

当判断所述预设声纹库未存储某一指定发言者的语音特征时，将所述指定发言者的语音特征发送给预设客户端；

当接收到所述预设客户端反馈的所述指定发言者的麦克风及标签后，开启所述指定发言者的麦克风，并将所述指定发言者的语音特征及标签存储至所述预设声纹库。

此外，为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器、处理器，所述存储器中存储有可在所述处理器上运行的麦克风控制程序，所述麦克风控制程序被所述处理器执行时实现如下步骤：

可选的，所述麦克风控制程序被所述处理器执行时在分解步骤前还实现如下步骤：

可选的，所述麦克风控制程序被所述处理器执行时在开启步骤后还实现如下步骤：

对所述每个发言者的语音信息的幅度谱进行过滤；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有麦克风控制程序，所述麦克风控制程序可被一个或者多个处理器执行，以实现上述麦克风控制方法的步骤。

相较现有技术，本发明通过将预设用户群的当前语音信息分解，得到预设用户群中参与发言的每个发言者的语音信息的时域信号数据，将所述时域信号数据输入预先训练好的声纹识别模型，得到所述每个发言者的语音特征，判断预设声纹库是否存储有所述每个发言者的语音特征，当判断所述预设声纹库存储有某一指定发言者的语音特征时，获取所述指定发言者的标签，根据预先确定的麦克风与发言者的标签的映射关系，确定所述指定发言者的麦克风，并开启所述麦克风，实现了智能化控制麦克风的开关。

附图说明

图1为本发明电子装置一实施例的示意图；

图2为图1中的麦克风控制程序一实施例的程序模块图；

图3为本发明麦克风控制方法一实施例的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示，为本发明电子装置1一实施例的示意图。电子装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，电子装置1包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，该存储器11中存储有麦克风控制程序10，所述麦克风控制程序10可被所述处理器12执行。图1仅示出了具有组件11-13以及麦克风控制程序10的电子装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对电子装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子装置1的内部存储单元，例如该电子装置1的硬盘；在另一些实施例中，该非易失性存储介质也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件，例如存储本发明一实施例中的麦克风控制程序10的代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作，例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行麦克风控制程序10等。

网络接口13可包括无线网络接口或有线网络接口，该网络接口13用于在所述电子装置1与客户端(图中未画出)之间建立通信连接。

可选的，所述电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选的，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

在本发明的一实施例中，所述麦克风控制程序10被所述处理器12执行时实现如下分解步骤、识别步骤及开启步骤。

分解步骤：实时获取预设用户群的当前语音信息，根据所述预设用户群的字典矩阵对所述当前语音信息进行分解，得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据。

用户群通常由有共同需求的用户群体组成，例如，工作用户群、班级用户群、团体(绘画、足球、乐器等)用户群。

本实施例中，所述预设用户群为公司员工群。

本方案适用于会议、演讲、活动等多人参与的场景。本实施例中，以会议场景为例，会议场景包括主讲模式会议场景(高频仅一路麦克风有效输入)和讨论模式会议场景(高频且存在多路麦克风有效输入)。

所述根据所述预设用户群的字典矩阵对所述当前语音信息进行分解包括：

A1、对所述当前语音信息的时域信号数据进行短时傅里叶变换，得到所述当前语音信息的频域信号数据；

时域信号与频域信号是模拟信号的两个观察面。时域信号是把信号以时间轴为坐标进行表征；频域信号是把信号变为以频率轴为坐标进行表征。一般来说，时域的表征较为形象与直观，然而频域信号分析问题时则更为简练，剖析问题时更为深刻和方便。

本实施例中，采用短时傅里叶变换(Short Time Fourier Transform,STFT)算法将时域信号数据转化为频域信号数据，其计算公式为：

其中，X_t(k)为第k个采样点的频域信号数据，N为每一帧的点数，t为时移因子，n为时间的离散化变量，i为虚数单位，k为采样点的个数，x(n)为在时间n时输入的时域信号数据，w(t-n)为以t为时间参数的窗口函数，一般采用汉宁窗或汉明窗。

经过短时傅里叶变换得到的频域信号数据包括幅度谱数据和相位谱数据。

A2、对所述当前语音信息的频域信号数据取模数，得到所述当前语音信息的幅度谱；

此步骤可将频域信号数据中的相位谱数据剔除，保留幅度谱数据。

A3、根据所述预设用户群的字典矩阵对所述当前语音信息的幅度谱进行分解及有效性判断，得到所述预设用户群中参与发言的每个发言者的语音信息的幅度谱；

本实施例中，采用NMF算法对当前语音信息的幅度谱进行分解。NMF(NonnegativeMatrix Factorization，非负矩阵分解)可将给定输入矩阵近似分解为两个非负矩阵(基矩阵W与系数矩阵H)的乘积，从而学习到原矩阵的部分信息。本实施例中，通过NMF近似分解当前语音信息的幅度谱，从而学习参与发言的每个发言者的语音特征，分解公式如下：

其中，X为当前语音信息的幅度谱，W为当前语音信息的基矩阵，H为当前语音信息的系数矩阵，W₁为第一个发言者的基矩阵，H₁为第一个发言者的系数矩阵，W₂第二个发言者的基矩阵，H₂为第二个发言者的系数矩阵，W_p为第p个发言者的基矩阵，H_p为第p个发言者的系数矩阵。

本实施例中，按照当前与会者的总数量来初始化P，通过NMF算法将当前语音信息的幅度谱分解为P个语音信息的幅度谱，通过ASR技术对所述P个语音信息进行文本转写，保留转写内容有效的语音信息的幅度谱。当转写内容有效的语音信息数量大于1时，表示当前会议场景为讨论模式会议场景(将当前语音信息分解和有效性判断后，得到多个发言者的语音信息)；当转写内容有效的语音信息数量等于1时，表示当前会议场景为主讲模式会议场景(将当前语音分解和有效性判断后，得到一个发言者的语音信息)。

A4、对所述每个发言者的语音信息的幅度谱进行过滤；

所述过滤的计算公式为：

其中，X_k为第k个发言者的语音信息的幅度谱，Δ_k为第k个发言者的特征向量的对角矩阵，

为当前语音信息中所有发言者的特征向量的对角矩阵之和，X_m为当前语音信息的幅度谱，

为点乘。

经过过滤处理的语音信息会更加纯净。

A5、将过滤后的所述每个发言者的语音信息的幅度谱转换为所述每个发言者的语音信息的频域信号数据；

所述转换的计算公式为：

其中，M_k为第k个发言者的语音信息的频域信号数据，M_m为当前语音信息的频域信号数据，X_k为第k个发言者的语音信息的幅度谱，X_m为当前语音信息的幅度谱，

为点乘。

A6、将所述每个发言者的语音信息的频域信号数据转换为所述每个发言者的语音信息的时域信号数据。

本实施例通过短时傅里叶逆变换将频域信号数据转换为时域信号数据。

识别步骤：将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型，得到所述每个发言者的语音特征，判断预设声纹库是否存储有所述每个发言者的语音特征。

本实施例中，所述声纹识别模型为前馈DNN网络模型，所述前馈DNN网络模型包含语音MCFFs特征输入层、在帧级别上进行处理的四个NIN(network-in-network)隐层，一个统计池化层、两个嵌入表示层和一个SoftMax输出层。

将发言者的语音信息的时域信号数据输入所述预先训练好的声纹识别模型，即可得到发言者的语音特征。

所述声纹识别模型的训练过程包括：

从预设语音数据库(例如：NIST-SREs)中获取预设数量的语音信息，例如，获取2010年至2018年来自4400说话人的约6万4千条录音数据和本公司成员会议报告、演讲音频资料。利用以上获取的语音信息对声纹识别模型进行训练，训练出可以正确区分训练集中不同说话人声纹的网络参数，提高对训练集外的说话人的声纹特征进行有效识别的能力。

本实施例中，预先将预设用户群中每个用户的语音特征存储至预设声纹库中，当判断所述预设声纹库存储有某一指定发言者的语音特征时，提取出所述指定发言者的语音特征及所述指定发言者的标签。其中，预设声纹库中包含本公司成员，特别是公司领导的会议报告和演讲的音频数据、标签和通过声纹识别模型后生成的特征向量，将从当前语音信息中获取的指定发言者的语音信息利用声纹识别模型生成特征向量，再与所述预设声纹库中的各声纹特征进行打分比较，判断所述特征向量是否存在于所述声纹库中。若存在(得分超过预设阈值)，则提取得分最高的声纹特征对应的标签作为该指定发言者的标签，标签可以为指定发言者的姓名或者工号。

本实施例中，预先将麦克风和发言者的标签建立映射关系，基于所述映射关系可以通过发言者的标签建立唯一的发言者声纹特征与麦克风之间的连接。因此，获取各发言者的语音特征后，即可进行声纹比对从而开启发言者的麦克风。

在本发明的另一个实施例中，所述麦克风控制程序10被所述处理器12执行时在开启步骤还实现如下步骤：

本实施例中，所述麦克风控制程序10被所述处理器12执行时在分解步骤前还执行如下步骤：

本实施例中，预先收集预设时间段内(例如，最近5年内)本公司各个会议和活动中的各个员工的语音信息，并根据NMF算法来获取每个员工的字典矩阵，并基于每个员工的字典矩阵构建所述用户群的字典矩阵。

所述NMF的计算公式为：

X_k＝W_kH_k

其中，X_k为第k的发言者的语音信息的幅度谱，W_k为第k个发言者的基矩阵(基矩阵即字典矩阵，基矩阵中包含了发言者的语音特征)，H_k为第k个发言者的系数矩阵。

为了捕捉语音的连续性，本实施例中进一步应用了CNMF算法，即卷积NMF，其计算公式为：

其中，V为输入的语音信息的幅度谱，W(t)为输入的语音信息的基矩阵，H为输入的语音信息的系数矩阵，T为基矩阵和系数矩阵的数量，

表示将系数矩阵H按列右移t步，左侧空出列补0。

CNMF将一个非负矩阵分解成卷积的形式，寻找T项单项式，使他们的和与输入矩阵尽可能接近，其中每个单项式的乘积都等于基矩阵与系数矩阵的乘积。CNMF中的所有系数矩阵都是通过对同一个矩阵进行右移操作而求得的。CNMF学习多个基矩阵和系数矩阵，并且约束基矩阵与系数矩阵的数目相同。在单声道语音分离中，CNMF学习到的每个发言者的字典矩阵W(t)不仅包含了辅音(发音的时候，从肺里出来的气，经过口腔或者鼻腔时受到阻碍时形成的音)信息，而且能够很好地表示基音(发音体整体振动产生的音)的谐和性。最重要的是，若令W＝[W(0),W(1),...,W(T-1)]，则W包含了T个很短的时间段内的语音的频谱特征，从而捕捉到语音的连续性。

在另一个实施例中，所述麦克风控制程序10被所述处理器12执行时在开启步骤后还执行如下步骤：

本实施例采用ASR技术对语音信息进行转写，通过所述关闭步骤可识别到预设时间阈值内未发言的人员的麦克风，将所述未发言的人员的麦克风关闭，可以避免杂音，且减少浪费。

由上述实施例可知，本发明提出的电子装置1，首先，将预设用户群的当前语音信息分解，得到预设用户群中参与发言的每个发言者的语音信息的时域信号数据；然后，将所述时域信号数据输入预先训练好的声纹识别模型，得到所述每个发言者的语音特征，判断预设声纹库是否存储有所述每个发言者的语音特征；最后，当判断所述预设声纹库存储有某一指定发言者的语音特征时，获取所述指定发言者的标签，根据预先确定的麦克风与发言者的标签的映射关系，确定所述指定发言者的麦克风，并开启所述麦克风，实现了智能化控制麦克风的开关。

在其他实施例中，麦克风控制程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述麦克风控制程序10在电子装置1中的执行过程。

如图2所示，为图1中的麦克风控制程序10一实施例的程序模块图。

在本发明的一个实施例中，麦克风控制程序10包括分解模块110、识别模块120及开启模块130，示例性地：

所述分解步骤110，用于实时获取预设用户群的当前语音信息，根据所述预设用户群的字典矩阵对所述当前语音信息进行分解，得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据；

所述识别模块120，用于将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型，得到所述每个发言者的语音特征，判断预设声纹库是否存储有所述每个发言者的语音特征是；

所述开启模块130，用于当判断所述预设声纹库存储有某一指定发言者的语音特征时，获取所述指定发言者的标签，根据预先确定的麦克风与发言者的标签的映射关系，确定所述指定发言者的麦克风，并开启所述麦克风。

上述分解模块110、识别模块120及开启模块130等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

如图3所示，为本发明麦克风控制方法一实施例的流程图，该麦克风控制方法包括步骤S1-S3。

S1、实时获取预设用户群的当前语音信息，根据所述预设用户群的字典矩阵对所述当前语音信息进行分解，得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据。

本实施例中，所述预设用户群为公司员工群。

A4、对所述每个发言者的语音信息的幅度谱进行过滤；

所述过滤的计算公式为：

为点乘。

经过过滤处理的语音信息会更加纯净。

所述转换的计算公式为：

为点乘。

S2、将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型，得到所述每个发言者的语音特征，判断预设声纹库是否存储有所述每个发言者的语音特征。

所述声纹识别模型的训练过程包括：

S3、当判断所述预设声纹库存储有某一指定发言者的语音特征时，获取所述指定发言者的标签，根据预先确定的麦克风与发言者的标签的映射关系，确定所述指定发言者的麦克风，并开启所述麦克风。

在本发明的另一个实施例中，所述步骤S3还包括：

本实施例中，所述方法在S1步骤前还包括：

收集所述预设用户群中每个用户的语音信息，计算所述预设用户群中每个用户的字典矩阵，并基于所述每个用户的字典矩阵构建所述预设用户群的字典矩阵。

所述NMF的计算公式为：

X_k＝W_kH_k

表示将系数矩阵H按列右移t步，左侧空出列补0。

在另一个实施例中，所述方法在步骤S3后还包括：

获取从各个已开启的麦克风输入的语音信息，对所述语音信息进行转写并对转写得到的文本信息进行有效性判断，若超过预设时间阈值从某一麦克风输入的语音信息所转写得到的文本信息皆为无效信息，则关闭所述麦克风。

由上述实施例可知，本发明提出的麦克风控制方法，首先，将预设用户群的当前语音信息分解，得到预设用户群中参与发言的每个发言者的语音信息的时域信号数据；然后，将所述时域信号数据输入预先训练好的声纹识别模型，得到所述每个发言者的语音特征，判断预设声纹库是否存储有所述每个发言者的语音特征；最后，当判断所述预设声纹库存储有某一指定发言者的语音特征时，获取所述指定发言者的标签，根据预先确定的麦克风与发言者的标签的映射关系，确定所述指定发言者的麦克风，并开启所述麦克风，实现了智能化控制麦克风的开关。

此外，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括麦克风控制程序10，所述麦克风控制程序10被处理器执行时实现如下操作：

本发明之计算机可读存储介质的具体实施方式与上述麦克风控制方法以及电子装置的具体实施方式大致相同，在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种麦克风控制方法，应用于电子装置，其特征在于，所述方法包括：

2.如权利要求1所述的麦克风控制方法，其特征在于，所述方法在分解步骤前还包括：

3.如权利要求2所述的麦克风控制方法，其特征在于，所述方法在开启步骤后还包括：

关闭步骤：获取从各个已开启的麦克风输入的语音信息，对所述语音信息进行转写并对转写得到的文本信息进行有效性判断，若从某一麦克风输入的语音信息所转写得到的文本信息皆为无效信息的时间超过预设时间阈值，则关闭所述麦克风。

4.如权利要求1所述的麦克风控制方法，其特征在于，所述根据所述预设用户群的字典矩阵对所述当前语音信息进行分解包括：

对所述每个发言者的语音信息的幅度谱进行过滤；

将过滤后的所述每个发言者的语音信息的幅度谱转换为所述每个发言者的语音信息的频域信号数据，所述转换的计算公式为：

其中，为第k个发言者的语音信息的频域信号数据，为当前语音信息的频域信号数据，为第k个发言者的语音信息的幅度谱，为当前语音信息的幅度谱，为点乘；

5.如权利要求1-4任一项所述的麦克风控制方法，其特征在于，所述开启步骤还包括：

6.一种电子装置，其特征在于，该电子装置包括：存储器、处理器，所述存储器上存储有能够在所述处理器上运行的麦克风控制程序，所述麦克风控制程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的电子装置，其特征在于，所述麦克风控制程序被所述处理器执行时在分解步骤前还实现如下步骤：

8.如权利要求7所述的电子装置，其特征在于，所述麦克风控制程序被所述处理器执行时在开启步骤后还实现如下步骤：

9.如权利要求6所述的电子装置，其特征在于，所述根据所述预设用户群的字典矩阵对所述当前语音信息进行分解包括：

对所述每个发言者的语音信息的幅度谱进行过滤；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有麦克风控制程序，所述麦克风控制程序被一个或者多个处理器执行，以实现如权利要求1至5任一项所述的麦克风控制方法的步骤。