CN111429914B - 麦克风控制方法、电子装置及计算机可读存储介质 - Google Patents

麦克风控制方法、电子装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111429914B
CN111429914B CN202010235328.7A CN202010235328A CN111429914B CN 111429914 B CN111429914 B CN 111429914B CN 202010235328 A CN202010235328 A CN 202010235328A CN 111429914 B CN111429914 B CN 111429914B
Authority
CN
China
Prior art keywords
speaker
voice information
microphone
signal data
domain signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010235328.7A
Other languages
English (en)
Other versions
CN111429914A (zh
Inventor
邬慷
肖金平
刘屹
万正勇
沈志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Finance Technology Co Ltd
Original Assignee
China Merchants Finance Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Finance Technology Co Ltd filed Critical China Merchants Finance Technology Co Ltd
Priority to CN202010235328.7A priority Critical patent/CN111429914B/zh
Publication of CN111429914A publication Critical patent/CN111429914A/zh
Application granted granted Critical
Publication of CN111429914B publication Critical patent/CN111429914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及智能控制技术领域,揭露了一种麦克风控制方法,该方法包括:根据预设用户群的字典矩阵对预设用户群的当前语音信息分解,得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据,将所述时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,当判断预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风。本发明还提出一种电子装置以及一种计算机可读存储介质。本发明实现了智能化控制麦克风的开关。

Description

麦克风控制方法、电子装置及计算机可读存储介质
技术领域
本发明涉及智能控制技术领域,尤其涉及一种麦克风控制方法、电子装置及计算机可读存储介质。
背景技术
随着当前社会信息技术的发展,各企业对会议的要求与时俱进,此时智能会议应运而生,智能会议采用ASR(Automatic Speech Recognition,语音识别)技术将发言者的语音实时转换为文字信息,从而自动生成报告字幕、会议记录等,保证了会议的高效进行。
然而,现有技术中,无法实现麦克风开关的智能化控制,当前麦克风开关通常由人工控制,会议过程中存在以下问题:
1、人工频繁切换麦克风会破坏会议进程的连续性,打断与会者的发言思路;
2、人工控制麦克风开关难以保证语音输出的实时性、准确性,易导致语音转写为文字的准确率降低以及转写资源的浪费;
3、与会者发言时如果忘记开启麦克风,将导致会议数据不完整。
因此,为解决上述问题,亟需一种智能化控制麦克风开关的方案。
发明内容
鉴于以上内容,有必要提供一种麦克风控制方法,旨在实现智能化控制麦克风的开关。
本发明提供的麦克风控制方法,包括:
分解步骤:实时获取预设用户群的当前语音信息,根据所述预设用户群的字典矩阵对所述当前语音信息进行分解,得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据;
识别步骤:将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征;
开启步骤:当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风。
可选的,所述方法在分解步骤前还包括:
构建步骤:收集所述预设用户群中每个用户的语音信息,计算所述预设用户群中每个用户的字典矩阵,并基于所述每个用户的字典矩阵构建所述预设用户群的字典矩阵。
可选的,所述方法在开启步骤后还包括:
关闭步骤:获取从各个已开启的麦克风输入的语音信息,对所述语音信息进行转写并对转写得到的文本信息进行有效性判断,若超过预设时间阈值从某一麦克风输入的语音信息所转写得到的文本信息皆为无效信息,则关闭所述麦克风。
可选的,所述根据所述预设用户群的字典矩阵对所述当前语音信息进行分解包括:
对所述当前语音信息的时域信号数据进行短时傅里叶变换,得到所述当前语音信息的频域信号数据;
对所述当前语音信息的频域信号数据取模数,得到所述当前语音信息的幅度谱;
根据所述预设用户群的字典矩阵对所述当前语音信息的幅度谱进行分解及有效性判断,得到所述预设用户群中参与发言的每个发言者的语音信息的幅度谱;
对所述每个发言者的语音信息的幅度谱进行过滤;
将过滤后的所述每个发言者的语音信息的幅度谱转换为所述每个发言者的语音信息的频域信号数据;
将所述每个发言者的语音信息的频域信号数据转换为所述每个发言者的语音信息的时域信号数据。
可选的,所述开启步骤还包括:
当判断所述预设声纹库未存储某一指定发言者的语音特征时,将所述指定发言者的语音特征发送给预设客户端;
当接收到所述预设客户端反馈的所述指定发言者的麦克风及标签后,开启所述指定发言者的麦克风,并将所述指定发言者的语音特征及标签存储至所述预设声纹库。
此外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的麦克风控制程序,所述麦克风控制程序被所述处理器执行时实现如下步骤:
分解步骤:实时获取预设用户群的当前语音信息,根据所述预设用户群的字典矩阵对所述当前语音信息进行分解,得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据;
识别步骤:将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征;
开启步骤:当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风。
可选的,所述麦克风控制程序被所述处理器执行时在分解步骤前还实现如下步骤:
构建步骤:收集所述预设用户群中每个用户的语音信息,计算所述预设用户群中每个用户的字典矩阵,并基于所述每个用户的字典矩阵构建所述预设用户群的字典矩阵。
可选的,所述麦克风控制程序被所述处理器执行时在开启步骤后还实现如下步骤:
关闭步骤:获取从各个已开启的麦克风输入的语音信息,对所述语音信息进行转写并对转写得到的文本信息进行有效性判断,若超过预设时间阈值从某一麦克风输入的语音信息所转写得到的文本信息皆为无效信息,则关闭所述麦克风。
可选的,所述根据所述预设用户群的字典矩阵对所述当前语音信息进行分解包括:
对所述当前语音信息的时域信号数据进行短时傅里叶变换,得到所述当前语音信息的频域信号数据;
对所述当前语音信息的频域信号数据取模数,得到所述当前语音信息的幅度谱;
根据所述预设用户群的字典矩阵对所述当前语音信息的幅度谱进行分解及有效性判断,得到所述预设用户群中参与发言的每个发言者的语音信息的幅度谱;
对所述每个发言者的语音信息的幅度谱进行过滤;
将过滤后的所述每个发言者的语音信息的幅度谱转换为所述每个发言者的语音信息的频域信号数据;
将所述每个发言者的语音信息的频域信号数据转换为所述每个发言者的语音信息的时域信号数据。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有麦克风控制程序,所述麦克风控制程序可被一个或者多个处理器执行,以实现上述麦克风控制方法的步骤。
相较现有技术,本发明通过将预设用户群的当前语音信息分解,得到预设用户群中参与发言的每个发言者的语音信息的时域信号数据,将所述时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征,当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风,实现了智能化控制麦克风的开关。
附图说明
图1为本发明电子装置一实施例的示意图;
图2为图1中的麦克风控制程序一实施例的程序模块图;
图3为本发明麦克风控制方法一实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示,为本发明电子装置1一实施例的示意图。电子装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子装置1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有麦克风控制程序10,所述麦克风控制程序10可被所述处理器12执行。图1仅示出了具有组件11-13以及麦克风控制程序10的电子装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件,例如存储本发明一实施例中的麦克风控制程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行麦克风控制程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子装置1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
在本发明的一实施例中,所述麦克风控制程序10被所述处理器12执行时实现如下分解步骤、识别步骤及开启步骤。
分解步骤:实时获取预设用户群的当前语音信息,根据所述预设用户群的字典矩阵对所述当前语音信息进行分解,得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据。
用户群通常由有共同需求的用户群体组成,例如,工作用户群、班级用户群、团体(绘画、足球、乐器等)用户群。
本实施例中,所述预设用户群为公司员工群。
本方案适用于会议、演讲、活动等多人参与的场景。本实施例中,以会议场景为例,会议场景包括主讲模式会议场景(高频仅一路麦克风有效输入)和讨论模式会议场景(高频且存在多路麦克风有效输入)。
所述根据所述预设用户群的字典矩阵对所述当前语音信息进行分解包括:
A1、对所述当前语音信息的时域信号数据进行短时傅里叶变换,得到所述当前语音信息的频域信号数据;
时域信号与频域信号是模拟信号的两个观察面。时域信号是把信号以时间轴为坐标进行表征;频域信号是把信号变为以频率轴为坐标进行表征。一般来说,时域的表征较为形象与直观,然而频域信号分析问题时则更为简练,剖析问题时更为深刻和方便。
本实施例中,采用短时傅里叶变换(Short Time Fourier Transform,STFT)算法将时域信号数据转化为频域信号数据,其计算公式为:
Figure BDA0002430767010000071
其中,Xt(k)为第k个采样点的频域信号数据,N为每一帧的点数,t为时移因子,n为时间的离散化变量,i为虚数单位,k为采样点的个数,x(n)为在时间n时输入的时域信号数据,w(t-n)为以t为时间参数的窗口函数,一般采用汉宁窗或汉明窗。
经过短时傅里叶变换得到的频域信号数据包括幅度谱数据和相位谱数据。
A2、对所述当前语音信息的频域信号数据取模数,得到所述当前语音信息的幅度谱;
此步骤可将频域信号数据中的相位谱数据剔除,保留幅度谱数据。
A3、根据所述预设用户群的字典矩阵对所述当前语音信息的幅度谱进行分解及有效性判断,得到所述预设用户群中参与发言的每个发言者的语音信息的幅度谱;
本实施例中,采用NMF算法对当前语音信息的幅度谱进行分解。NMF(NonnegativeMatrix Factorization,非负矩阵分解)可将给定输入矩阵近似分解为两个非负矩阵(基矩阵W与系数矩阵H)的乘积,从而学习到原矩阵的部分信息。本实施例中,通过NMF近似分解当前语音信息的幅度谱,从而学习参与发言的每个发言者的语音特征,分解公式如下:
Figure BDA0002430767010000072
其中,X为当前语音信息的幅度谱,W为当前语音信息的基矩阵,H为当前语音信息的系数矩阵,W1为第一个发言者的基矩阵,H1为第一个发言者的系数矩阵,W2第二个发言者的基矩阵,H2为第二个发言者的系数矩阵,Wp为第p个发言者的基矩阵,Hp为第p个发言者的系数矩阵。
本实施例中,按照当前与会者的总数量来初始化P,通过NMF算法将当前语音信息的幅度谱分解为P个语音信息的幅度谱,通过ASR技术对所述P个语音信息进行文本转写,保留转写内容有效的语音信息的幅度谱。当转写内容有效的语音信息数量大于1时,表示当前会议场景为讨论模式会议场景(将当前语音信息分解和有效性判断后,得到多个发言者的语音信息);当转写内容有效的语音信息数量等于1时,表示当前会议场景为主讲模式会议场景(将当前语音分解和有效性判断后,得到一个发言者的语音信息)。
A4、对所述每个发言者的语音信息的幅度谱进行过滤;
所述过滤的计算公式为:
Figure BDA0002430767010000081
其中,Xk为第k个发言者的语音信息的幅度谱,Δk为第k个发言者的特征向量的对角矩阵,
Figure BDA0002430767010000082
为当前语音信息中所有发言者的特征向量的对角矩阵之和,Xm为当前语音信息的幅度谱,
Figure BDA0002430767010000083
为点乘。
经过过滤处理的语音信息会更加纯净。
A5、将过滤后的所述每个发言者的语音信息的幅度谱转换为所述每个发言者的语音信息的频域信号数据;
所述转换的计算公式为:
Figure BDA0002430767010000084
其中,Mk为第k个发言者的语音信息的频域信号数据,Mm为当前语音信息的频域信号数据,Xk为第k个发言者的语音信息的幅度谱,Xm为当前语音信息的幅度谱,
Figure BDA0002430767010000085
为点乘。
A6、将所述每个发言者的语音信息的频域信号数据转换为所述每个发言者的语音信息的时域信号数据。
本实施例通过短时傅里叶逆变换将频域信号数据转换为时域信号数据。
识别步骤:将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征。
本实施例中,所述声纹识别模型为前馈DNN网络模型,所述前馈DNN网络模型包含语音MCFFs特征输入层、在帧级别上进行处理的四个NIN(network-in-network)隐层,一个统计池化层、两个嵌入表示层和一个SoftMax输出层。
将发言者的语音信息的时域信号数据输入所述预先训练好的声纹识别模型,即可得到发言者的语音特征。
所述声纹识别模型的训练过程包括:
从预设语音数据库(例如:NIST-SREs)中获取预设数量的语音信息,例如,获取2010年至2018年来自4400说话人的约6万4千条录音数据和本公司成员会议报告、演讲音频资料。利用以上获取的语音信息对声纹识别模型进行训练,训练出可以正确区分训练集中不同说话人声纹的网络参数,提高对训练集外的说话人的声纹特征进行有效识别的能力。
开启步骤:当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风。
本实施例中,预先将预设用户群中每个用户的语音特征存储至预设声纹库中,当判断所述预设声纹库存储有某一指定发言者的语音特征时,提取出所述指定发言者的语音特征及所述指定发言者的标签。其中,预设声纹库中包含本公司成员,特别是公司领导的会议报告和演讲的音频数据、标签和通过声纹识别模型后生成的特征向量,将从当前语音信息中获取的指定发言者的语音信息利用声纹识别模型生成特征向量,再与所述预设声纹库中的各声纹特征进行打分比较,判断所述特征向量是否存在于所述声纹库中。若存在(得分超过预设阈值),则提取得分最高的声纹特征对应的标签作为该指定发言者的标签,标签可以为指定发言者的姓名或者工号。
本实施例中,预先将麦克风和发言者的标签建立映射关系,基于所述映射关系可以通过发言者的标签建立唯一的发言者声纹特征与麦克风之间的连接。因此,获取各发言者的语音特征后,即可进行声纹比对从而开启发言者的麦克风。
在本发明的另一个实施例中,所述麦克风控制程序10被所述处理器12执行时在开启步骤还实现如下步骤:
当判断所述预设声纹库未存储某一指定发言者的语音特征时,将所述指定发言者的语音特征发送给预设客户端;
当接收到所述预设客户端反馈的所述指定发言者的麦克风及标签后,开启所述指定发言者的麦克风,并将所述指定发言者的语音特征及标签存储至所述预设声纹库。
本实施例中,所述麦克风控制程序10被所述处理器12执行时在分解步骤前还执行如下步骤:
构建步骤:收集所述预设用户群中每个用户的语音信息,计算所述预设用户群中每个用户的字典矩阵,并基于所述每个用户的字典矩阵构建所述预设用户群的字典矩阵。
本实施例中,预先收集预设时间段内(例如,最近5年内)本公司各个会议和活动中的各个员工的语音信息,并根据NMF算法来获取每个员工的字典矩阵,并基于每个员工的字典矩阵构建所述用户群的字典矩阵。
所述NMF的计算公式为:
Xk=WkHk
其中,Xk为第k的发言者的语音信息的幅度谱,Wk为第k个发言者的基矩阵(基矩阵即字典矩阵,基矩阵中包含了发言者的语音特征),Hk为第k个发言者的系数矩阵。
为了捕捉语音的连续性,本实施例中进一步应用了CNMF算法,即卷积NMF,其计算公式为:
Figure BDA0002430767010000101
其中,V为输入的语音信息的幅度谱,W(t)为输入的语音信息的基矩阵,H为输入的语音信息的系数矩阵,T为基矩阵和系数矩阵的数量,
Figure BDA0002430767010000102
表示将系数矩阵H按列右移t步,左侧空出列补0。
CNMF将一个非负矩阵分解成卷积的形式,寻找T项单项式,使他们的和与输入矩阵尽可能接近,其中每个单项式的乘积都等于基矩阵与系数矩阵的乘积。CNMF中的所有系数矩阵都是通过对同一个矩阵进行右移操作而求得的。CNMF学习多个基矩阵和系数矩阵,并且约束基矩阵与系数矩阵的数目相同。在单声道语音分离中,CNMF学习到的每个发言者的字典矩阵W(t)不仅包含了辅音(发音的时候,从肺里出来的气,经过口腔或者鼻腔时受到阻碍时形成的音)信息,而且能够很好地表示基音(发音体整体振动产生的音)的谐和性。最重要的是,若令W=[W(0),W(1),...,W(T-1)],则W包含了T个很短的时间段内的语音的频谱特征,从而捕捉到语音的连续性。
在另一个实施例中,所述麦克风控制程序10被所述处理器12执行时在开启步骤后还执行如下步骤:
关闭步骤:获取从各个已开启的麦克风输入的语音信息,对所述语音信息进行转写并对转写得到的文本信息进行有效性判断,若超过预设时间阈值从某一麦克风输入的语音信息所转写得到的文本信息皆为无效信息,则关闭所述麦克风。
本实施例采用ASR技术对语音信息进行转写,通过所述关闭步骤可识别到预设时间阈值内未发言的人员的麦克风,将所述未发言的人员的麦克风关闭,可以避免杂音,且减少浪费。
由上述实施例可知,本发明提出的电子装置1,首先,将预设用户群的当前语音信息分解,得到预设用户群中参与发言的每个发言者的语音信息的时域信号数据;然后,将所述时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征;最后,当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风,实现了智能化控制麦克风的开关。
在其他实施例中,麦克风控制程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述麦克风控制程序10在电子装置1中的执行过程。
如图2所示,为图1中的麦克风控制程序10一实施例的程序模块图。
在本发明的一个实施例中,麦克风控制程序10包括分解模块110、识别模块120及开启模块130,示例性地:
所述分解步骤110,用于实时获取预设用户群的当前语音信息,根据所述预设用户群的字典矩阵对所述当前语音信息进行分解,得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据;
所述识别模块120,用于将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征是;
所述开启模块130,用于当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风。
上述分解模块110、识别模块120及开启模块130等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
如图3所示,为本发明麦克风控制方法一实施例的流程图,该麦克风控制方法包括步骤S1-S3。
S1、实时获取预设用户群的当前语音信息,根据所述预设用户群的字典矩阵对所述当前语音信息进行分解,得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据。
用户群通常由有共同需求的用户群体组成,例如,工作用户群、班级用户群、团体(绘画、足球、乐器等)用户群。
本实施例中,所述预设用户群为公司员工群。
本方案适用于会议、演讲、活动等多人参与的场景。本实施例中,以会议场景为例,会议场景包括主讲模式会议场景(高频仅一路麦克风有效输入)和讨论模式会议场景(高频且存在多路麦克风有效输入)。
所述根据所述预设用户群的字典矩阵对所述当前语音信息进行分解包括:
A1、对所述当前语音信息的时域信号数据进行短时傅里叶变换,得到所述当前语音信息的频域信号数据;
时域信号与频域信号是模拟信号的两个观察面。时域信号是把信号以时间轴为坐标进行表征;频域信号是把信号变为以频率轴为坐标进行表征。一般来说,时域的表征较为形象与直观,然而频域信号分析问题时则更为简练,剖析问题时更为深刻和方便。
本实施例中,采用短时傅里叶变换(Short Time Fourier Transform,STFT)算法将时域信号数据转化为频域信号数据,其计算公式为:
Figure BDA0002430767010000121
其中,Xt(k)为第k个采样点的频域信号数据,N为每一帧的点数,t为时移因子,n为时间的离散化变量,i为虚数单位,k为采样点的个数,x(n)为在时间n时输入的时域信号数据,w(t-n)为以t为时间参数的窗口函数,一般采用汉宁窗或汉明窗。
经过短时傅里叶变换得到的频域信号数据包括幅度谱数据和相位谱数据。
A2、对所述当前语音信息的频域信号数据取模数,得到所述当前语音信息的幅度谱;
此步骤可将频域信号数据中的相位谱数据剔除,保留幅度谱数据。
A3、根据所述预设用户群的字典矩阵对所述当前语音信息的幅度谱进行分解及有效性判断,得到所述预设用户群中参与发言的每个发言者的语音信息的幅度谱;
本实施例中,采用NMF算法对当前语音信息的幅度谱进行分解。NMF(NonnegativeMatrix Factorization,非负矩阵分解)可将给定输入矩阵近似分解为两个非负矩阵(基矩阵W与系数矩阵H)的乘积,从而学习到原矩阵的部分信息。本实施例中,通过NMF近似分解当前语音信息的幅度谱,从而学习参与发言的每个发言者的语音特征,分解公式如下:
Figure BDA0002430767010000131
其中,X为当前语音信息的幅度谱,W为当前语音信息的基矩阵,H为当前语音信息的系数矩阵,W1为第一个发言者的基矩阵,H1为第一个发言者的系数矩阵,W2第二个发言者的基矩阵,H2为第二个发言者的系数矩阵,Wp为第p个发言者的基矩阵,Hp为第p个发言者的系数矩阵。
本实施例中,按照当前与会者的总数量来初始化P,通过NMF算法将当前语音信息的幅度谱分解为P个语音信息的幅度谱,通过ASR技术对所述P个语音信息进行文本转写,保留转写内容有效的语音信息的幅度谱。当转写内容有效的语音信息数量大于1时,表示当前会议场景为讨论模式会议场景(将当前语音信息分解和有效性判断后,得到多个发言者的语音信息);当转写内容有效的语音信息数量等于1时,表示当前会议场景为主讲模式会议场景(将当前语音分解和有效性判断后,得到一个发言者的语音信息)。
A4、对所述每个发言者的语音信息的幅度谱进行过滤;
所述过滤的计算公式为:
Figure BDA0002430767010000132
其中,Xk为第k个发言者的语音信息的幅度谱,Δk为第k个发言者的特征向量的对角矩阵,
Figure BDA0002430767010000133
为当前语音信息中所有发言者的特征向量的对角矩阵之和,Xm为当前语音信息的幅度谱,
Figure BDA0002430767010000134
为点乘。
经过过滤处理的语音信息会更加纯净。
A5、将过滤后的所述每个发言者的语音信息的幅度谱转换为所述每个发言者的语音信息的频域信号数据;
所述转换的计算公式为:
Figure BDA0002430767010000141
其中,Mk为第k个发言者的语音信息的频域信号数据,Mm为当前语音信息的频域信号数据,Xk为第k个发言者的语音信息的幅度谱,Xm为当前语音信息的幅度谱,
Figure BDA0002430767010000142
为点乘。
A6、将所述每个发言者的语音信息的频域信号数据转换为所述每个发言者的语音信息的时域信号数据。
本实施例通过短时傅里叶逆变换将频域信号数据转换为时域信号数据。
S2、将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征。
本实施例中,所述声纹识别模型为前馈DNN网络模型,所述前馈DNN网络模型包含语音MCFFs特征输入层、在帧级别上进行处理的四个NIN(network-in-network)隐层,一个统计池化层、两个嵌入表示层和一个SoftMax输出层。
将发言者的语音信息的时域信号数据输入所述预先训练好的声纹识别模型,即可得到发言者的语音特征。
所述声纹识别模型的训练过程包括:
从预设语音数据库(例如:NIST-SREs)中获取预设数量的语音信息,例如,获取2010年至2018年来自4400说话人的约6万4千条录音数据和本公司成员会议报告、演讲音频资料。利用以上获取的语音信息对声纹识别模型进行训练,训练出可以正确区分训练集中不同说话人声纹的网络参数,提高对训练集外的说话人的声纹特征进行有效识别的能力。
S3、当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风。
本实施例中,预先将预设用户群中每个用户的语音特征存储至预设声纹库中,当判断所述预设声纹库存储有某一指定发言者的语音特征时,提取出所述指定发言者的语音特征及所述指定发言者的标签。其中,预设声纹库中包含本公司成员,特别是公司领导的会议报告和演讲的音频数据、标签和通过声纹识别模型后生成的特征向量,将从当前语音信息中获取的指定发言者的语音信息利用声纹识别模型生成特征向量,再与所述预设声纹库中的各声纹特征进行打分比较,判断所述特征向量是否存在于所述声纹库中。若存在(得分超过预设阈值),则提取得分最高的声纹特征对应的标签作为该指定发言者的标签,标签可以为指定发言者的姓名或者工号。
本实施例中,预先将麦克风和发言者的标签建立映射关系,基于所述映射关系可以通过发言者的标签建立唯一的发言者声纹特征与麦克风之间的连接。因此,获取各发言者的语音特征后,即可进行声纹比对从而开启发言者的麦克风。
在本发明的另一个实施例中,所述步骤S3还包括:
当判断所述预设声纹库未存储某一指定发言者的语音特征时,将所述指定发言者的语音特征发送给预设客户端;
当接收到所述预设客户端反馈的所述指定发言者的麦克风及标签后,开启所述指定发言者的麦克风,并将所述指定发言者的语音特征及标签存储至所述预设声纹库。
本实施例中,所述方法在S1步骤前还包括:
收集所述预设用户群中每个用户的语音信息,计算所述预设用户群中每个用户的字典矩阵,并基于所述每个用户的字典矩阵构建所述预设用户群的字典矩阵。
本实施例中,预先收集预设时间段内(例如,最近5年内)本公司各个会议和活动中的各个员工的语音信息,并根据NMF算法来获取每个员工的字典矩阵,并基于每个员工的字典矩阵构建所述用户群的字典矩阵。
所述NMF的计算公式为:
Xk=WkHk
其中,Xk为第k的发言者的语音信息的幅度谱,Wk为第k个发言者的基矩阵(基矩阵即字典矩阵,基矩阵中包含了发言者的语音特征),Hk为第k个发言者的系数矩阵。
为了捕捉语音的连续性,本实施例中进一步应用了CNMF算法,即卷积NMF,其计算公式为:
Figure BDA0002430767010000151
其中,V为输入的语音信息的幅度谱,W(t)为输入的语音信息的基矩阵,H为输入的语音信息的系数矩阵,T为基矩阵和系数矩阵的数量,
Figure BDA0002430767010000161
表示将系数矩阵H按列右移t步,左侧空出列补0。
CNMF将一个非负矩阵分解成卷积的形式,寻找T项单项式,使他们的和与输入矩阵尽可能接近,其中每个单项式的乘积都等于基矩阵与系数矩阵的乘积。CNMF中的所有系数矩阵都是通过对同一个矩阵进行右移操作而求得的。CNMF学习多个基矩阵和系数矩阵,并且约束基矩阵与系数矩阵的数目相同。在单声道语音分离中,CNMF学习到的每个发言者的字典矩阵W(t)不仅包含了辅音(发音的时候,从肺里出来的气,经过口腔或者鼻腔时受到阻碍时形成的音)信息,而且能够很好地表示基音(发音体整体振动产生的音)的谐和性。最重要的是,若令W=[W(0),W(1),...,W(T-1)],则W包含了T个很短的时间段内的语音的频谱特征,从而捕捉到语音的连续性。
在另一个实施例中,所述方法在步骤S3后还包括:
获取从各个已开启的麦克风输入的语音信息,对所述语音信息进行转写并对转写得到的文本信息进行有效性判断,若超过预设时间阈值从某一麦克风输入的语音信息所转写得到的文本信息皆为无效信息,则关闭所述麦克风。
本实施例采用ASR技术对语音信息进行转写,通过所述关闭步骤可识别到预设时间阈值内未发言的人员的麦克风,将所述未发言的人员的麦克风关闭,可以避免杂音,且减少浪费。
由上述实施例可知,本发明提出的麦克风控制方法,首先,将预设用户群的当前语音信息分解,得到预设用户群中参与发言的每个发言者的语音信息的时域信号数据;然后,将所述时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征;最后,当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风,实现了智能化控制麦克风的开关。
此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括麦克风控制程序10,所述麦克风控制程序10被处理器执行时实现如下操作:
分解步骤:实时获取预设用户群的当前语音信息,根据所述预设用户群的字典矩阵对所述当前语音信息进行分解,得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据;
识别步骤:将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征;
开启步骤:当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风。
本发明之计算机可读存储介质的具体实施方式与上述麦克风控制方法以及电子装置的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种麦克风控制方法,应用于电子装置,其特征在于,所述方法包括:
分解步骤:实时获取预设用户群的当前语音信息,根据所述预设用户群的字典矩阵对所述当前语音信息进行分解,得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据;
识别步骤:将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征;
开启步骤:当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风。
2.如权利要求1所述的麦克风控制方法,其特征在于,所述方法在分解步骤前还包括:
构建步骤:收集所述预设用户群中每个用户的语音信息,计算所述预设用户群中每个用户的字典矩阵,并基于所述每个用户的字典矩阵构建所述预设用户群的字典矩阵。
3.如权利要求2所述的麦克风控制方法,其特征在于,所述方法在开启步骤后还包括:
关闭步骤:获取从各个已开启的麦克风输入的语音信息,对所述语音信息进行转写并对转写得到的文本信息进行有效性判断,若从某一麦克风输入的语音信息所转写得到的文本信息皆为无效信息的时间超过预设时间阈值,则关闭所述麦克风。
4.如权利要求1所述的麦克风控制方法,其特征在于,所述根据所述预设用户群的字典矩阵对所述当前语音信息进行分解包括:
对所述当前语音信息的时域信号数据进行短时傅里叶变换,得到所述当前语音信息的频域信号数据;
对所述当前语音信息的频域信号数据取模数,得到所述当前语音信息的幅度谱;
根据所述预设用户群的字典矩阵对所述当前语音信息的幅度谱进行分解及有效性判断,得到所述预设用户群中参与发言的每个发言者的语音信息的幅度谱;
对所述每个发言者的语音信息的幅度谱进行过滤;
将过滤后的所述每个发言者的语音信息的幅度谱转换为所述每个发言者的语音信息的频域信号数据,所述转换的计算公式为:
其中,为第k个发言者的语音信息的频域信号数据,为当前语音信息的频域信号数据,为第k个发言者的语音信息的幅度谱,为当前语音信息的幅度谱,为点乘;
将所述每个发言者的语音信息的频域信号数据转换为所述每个发言者的语音信息的时域信号数据。
5.如权利要求1-4任一项所述的麦克风控制方法,其特征在于,所述开启步骤还包括:
当判断所述预设声纹库未存储某一指定发言者的语音特征时,将所述指定发言者的语音特征发送给预设客户端;
当接收到所述预设客户端反馈的所述指定发言者的麦克风及标签后,开启所述指定发言者的麦克风,并将所述指定发言者的语音特征及标签存储至所述预设声纹库。
6.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器上存储有能够在所述处理器上运行的麦克风控制程序,所述麦克风控制程序被所述处理器执行时实现如下步骤:
分解步骤:实时获取预设用户群的当前语音信息,根据所述预设用户群的字典矩阵对所述当前语音信息进行分解,得到所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据;
识别步骤:将所述预设用户群中参与发言的每个发言者的语音信息的时域信号数据输入预先训练好的声纹识别模型,得到所述每个发言者的语音特征,判断预设声纹库是否存储有所述每个发言者的语音特征;
开启步骤:当判断所述预设声纹库存储有某一指定发言者的语音特征时,获取所述指定发言者的标签,根据预先确定的麦克风与发言者的标签的映射关系,确定所述指定发言者的麦克风,并开启所述麦克风。
7.如权利要求6所述的电子装置,其特征在于,所述麦克风控制程序被所述处理器执行时在分解步骤前还实现如下步骤:
构建步骤:收集所述预设用户群中每个用户的语音信息,计算所述预设用户群中每个用户的字典矩阵,并基于所述每个用户的字典矩阵构建所述预设用户群的字典矩阵。
8.如权利要求7所述的电子装置,其特征在于,所述麦克风控制程序被所述处理器执行时在开启步骤后还实现如下步骤:
关闭步骤:获取从各个已开启的麦克风输入的语音信息,对所述语音信息进行转写并对转写得到的文本信息进行有效性判断,若从某一麦克风输入的语音信息所转写得到的文本信息皆为无效信息的时间超过预设时间阈值,则关闭所述麦克风。
9.如权利要求6所述的电子装置,其特征在于,所述根据所述预设用户群的字典矩阵对所述当前语音信息进行分解包括:
对所述当前语音信息的时域信号数据进行短时傅里叶变换,得到所述当前语音信息的频域信号数据;
对所述当前语音信息的频域信号数据取模数,得到所述当前语音信息的幅度谱;
根据所述预设用户群的字典矩阵对所述当前语音信息的幅度谱进行分解及有效性判断,得到所述预设用户群中参与发言的每个发言者的语音信息的幅度谱;
对所述每个发言者的语音信息的幅度谱进行过滤;
将过滤后的所述每个发言者的语音信息的幅度谱转换为所述每个发言者的语音信息的频域信号数据,所述转换的计算公式为:
其中,为第k个发言者的语音信息的频域信号数据,为当前语音信息的频域信号数据,为第k个发言者的语音信息的幅度谱,为当前语音信息的幅度谱,为点乘;
将所述每个发言者的语音信息的频域信号数据转换为所述每个发言者的语音信息的时域信号数据。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有麦克风控制程序,所述麦克风控制程序被一个或者多个处理器执行,以实现如权利要求1至5任一项所述的麦克风控制方法的步骤。
CN202010235328.7A 2020-03-30 2020-03-30 麦克风控制方法、电子装置及计算机可读存储介质 Active CN111429914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010235328.7A CN111429914B (zh) 2020-03-30 2020-03-30 麦克风控制方法、电子装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010235328.7A CN111429914B (zh) 2020-03-30 2020-03-30 麦克风控制方法、电子装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111429914A CN111429914A (zh) 2020-07-17
CN111429914B true CN111429914B (zh) 2023-04-18

Family

ID=71549925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010235328.7A Active CN111429914B (zh) 2020-03-30 2020-03-30 麦克风控制方法、电子装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111429914B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333767A (zh) * 2020-09-29 2022-04-12 华为技术有限公司 发声者语音抽取方法、装置、存储介质及电子设备
CN112562718A (zh) * 2020-11-30 2021-03-26 重庆电子工程职业学院 基于topk多路音源有效信号筛选系统及方法
CN113643700B (zh) * 2021-07-27 2024-02-27 广州市威士丹利智能科技有限公司 一种智能语音开关的控制方法及系统
CN114005460B (zh) * 2021-10-28 2024-09-17 广州艾美网络科技有限公司 音乐文件的人声分离方法和装置
CN114464190A (zh) * 2022-01-30 2022-05-10 云知声智能科技股份有限公司 一种语音识别场景下音量自适应方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4085924B2 (ja) * 2003-08-04 2008-05-14 ソニー株式会社 音声処理装置
JP2006003451A (ja) * 2004-06-15 2006-01-05 Brother Ind Ltd 対象者特定装置,催事動向分析装置及び催事動向分析システム
CN102347060A (zh) * 2010-08-04 2012-02-08 鸿富锦精密工业(深圳)有限公司 电子记录装置及方法
CN104885437B (zh) * 2012-12-27 2018-07-27 罗伯特·博世有限公司 会议系统和用于会议系统中的语音激活的方法
CN103986996B (zh) * 2014-05-14 2016-04-27 深圳市达威思智能科技有限公司 一种基于阵列式麦克风的会议系统
CN108573711A (zh) * 2017-03-09 2018-09-25 中国科学院声学研究所 一种基于nmf算法的单传声器语音分离方法
CN108055617B (zh) * 2017-12-12 2020-12-15 广东小天才科技有限公司 一种麦克风的唤醒方法、装置、终端设备及存储介质
CN109741754A (zh) * 2018-12-10 2019-05-10 上海思创华信信息技术有限公司 一种会议语音识别方法及系统、存储介质及终端
CN110134756A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 会议记录生成方法、电子装置及存储介质
CN110322869B (zh) * 2019-05-21 2023-06-16 平安科技(深圳)有限公司 会议分角色语音合成方法、装置、计算机设备和存储介质
CN110865789A (zh) * 2019-11-20 2020-03-06 随锐科技集团股份有限公司 基于语音识别的智能开启麦克风的方法及系统

Also Published As

Publication number Publication date
CN111429914A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111429914B (zh) 麦克风控制方法、电子装置及计算机可读存储介质
CN111179975B (zh) 用于情绪识别的语音端点检测方法、电子设备及存储介质
CN104969288B (zh) 基于话音记录日志提供话音识别系统的方法和系统
CN109493850B (zh) 成长型对话装置
CN110277088B (zh) 智能语音识别方法、装置及计算机可读存储介质
TWI300214B (en) Method for robust voice recognition by analyzing redundant features of source signal
CN112182252B (zh) 基于药品知识图谱的智能用药问答方法及其设备
CN112633003B (zh) 一种地址识别方法、装置、计算机设备及存储介质
US7792671B2 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
CN112562691A (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
CN1645477A (zh) 使用用户纠正的自动语音识别学习
CN111243603B (zh) 声纹识别方法、系统、移动终端及存储介质
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
CN111159987A (zh) 数据图表绘制方法、装置、设备和计算机可读存储介质
CN113327586A (zh) 一种语音识别方法、装置、电子设备以及存储介质
CN113593565B (zh) 一种智能家庭设备管控方法和系统
CN114999463A (zh) 语音识别方法、装置、设备及介质
KR20170086233A (ko) 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
CN110298150B (zh) 一种基于语音识别的身份验证方法及系统
CN112199498A (zh) 一种养老服务的人机对话方法、装置、介质及电子设备
CN111326142A (zh) 基于语音转文本的文本信息提取方法、系统和电子设备
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
CN111506764B (zh) 音频数据筛选方法、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant