CN109065051A - 一种语音识别处理方法及装置 - Google Patents
一种语音识别处理方法及装置 Download PDFInfo
- Publication number
- CN109065051A CN109065051A CN201811162123.XA CN201811162123A CN109065051A CN 109065051 A CN109065051 A CN 109065051A CN 201811162123 A CN201811162123 A CN 201811162123A CN 109065051 A CN109065051 A CN 109065051A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- voice
- identified
- mixing
- phonetic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 230000004069 differentiation Effects 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 210000004209 hair Anatomy 0.000 claims description 12
- 238000000926 separation method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000004378 air conditioning Methods 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种语音识别处理方法及装置,其中,该方法包括:通过麦克采集多人发出的混合语音信息;从所述混合语音信息中提取出N个语音信号;对所述N个语音信号的语音特征进行差异化对比;根据差异化对比的结果确定待识别语音信号;对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作。通过本发明,可以解决相关技术中多人说话场景下语言识别效果差导致难以准确执行用户下达的指令的问题,提高了用户的控制指令的识别效果,达到提高用户体验的效果。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种语音识别处理方法及装置。
背景技术
语音交互作为新一代模式,已成为主流交互方式之一。但其存在多人对话场景下拾音混乱的缺点。如果聆听所有人的话语内容,由于每个人说话内容不同,组合在一起严重影响识别率。为解决此问题,人们开发出基于声纹识别的识别方式,将语音信号根据声纹拆分成多个语音信号,选择其一进行识别语义。但这样出现该识别的未识别,不该识别的识别了,出错率较大。
针对相关技术中多人说话场景下语言识别效果差导致难以准确执行用户下达的指令的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种语音识别处理方法及装置,以至少解决相关技术中多人说话场景下语言识别效果差导致难以准确执行用户下达的指令的问题。
根据本发明的一个实施例,提供了一种语音识别处理方法,包括:
通过麦克采集多人发出的混合语音信息;
从所述混合语音信息中提取出N个语音信号,其中,N为大于1的整数;
对所述N个语音信号的语音特征进行差异化对比;
根据差异化对比的结果确定待识别语音信号;
对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作。
可选地,从所述混合语音信息中提取出N个语音信号包括:
对所述混合语音信息进行特征提取;
根据提取的所述混合语音信息的特征进行语音分离,得到所述N个语音信号。
可选地,根据差异化对比的结果确定待识别语音信号包括:
在所述N个语音信号为两个语音信号的情况下,将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号;
在所述N个语音信号为大于或等于三个语音信号的情况下,将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号。
可选地,将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号包括:
根据所述N个语音信号的语音特征将所述N个语音信号进行排列;
根据预先为语音特征分配的权重系数计算得到所述N个语音信号中差异性最大的语音信号;
确定差异性最大的语音信号为所述待识别语音信号。
可选地,所述语音特征至少包括以下之一:语速、音色、音调、响度。
根据本发明的另一个实施例,还提供了一种语音识别处理装置,包括:
采集模块,用于通过麦克采集多人发出的混合语音信息;
提取模块,用于从所述混合语音信息中提取出N个语音信号;
差异化对比模块,用于对所述N个语音信号的语音特征进行差异化对比;
确定模块,用于根据差异化对比的结果确定待识别语音信号;
解析模块,用于对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作。
可选地,所述提取模块包括:
特征提取单元,用于对所述混合语音信息进行特征提取;
分离单元,用于根据提取的所述混合语音信息的特征进行语音分离,得到所述N个语音信号。
可选地,所述确定模块包括:
第一确定单元,用于在所述N个语音信号为两个语音信号的情况下,将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号;
第二确定单元,用于在所述N个语音信号为大于或等于三个语音信号的情况下,将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号。
可选地,所述确定模块包括:
排列单元,用于根据所述N个语音信号的语音特征将所述N个语音信号进行排列;
计算单元,用于根据预先为语音特征分配的权重系数计算得到所述N个语音信号中差异性最大的语音信号;
第三确定单元,用于确定差异性最大的语音信号为所述待识别语音信号。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,通过麦克采集多人发出的混合语音信息;从所述混合语音信息中提取出N个语音信号;对所述N个语音信号的语音特征进行差异化对比;根据差异化对比的结果确定待识别语音信号;对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作,因此,可以解决相关技术中多人说话场景下语言识别效果差导致难以准确执行用户下达的指令的问题,提高了用户的控制指令的识别效果,达到提高用户体验的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种语音识别处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种语音识别处理方法的流程图;
图3是根据本发明实施例的多人语音识别处理的流程图;
图4是根据本发明实施例的语音识别处理装置的框图;
图5是根据本发明优选实施例的语音识别处理装置的框图一;
图6是根据本发明优选实施例的语音识别处理装置的框图二。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音识别处理方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种语音识别处理方法,应用于广告终端、播放器等设备,该设备可以通过无线连接的方式与上述移动终端建立连接,例如,可以通过WIFI模块与上述的移动终端建立无线连接。图2是根据本发明实施例的一种语音识别处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,通过麦克采集多人发出的混合语音信息;
步骤S204,从所述混合语音信息中提取出N个语音信号,其中,N为大于1的整数;
步骤S206,对所述N个语音信号的语音特征进行差异化对比;
步骤S208,根据差异化对比的结果确定待识别语音信号;
步骤S210,对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作。
通过上述步骤,通过麦克采集多人发出的混合语音信息;从所述混合语音信息中提取出N个语音信号;对所述N个语音信号的语音特征进行差异化对比;根据差异化对比的结果确定待识别语音信号;对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作,解决了相关技术中多人说话场景下语言识别效果差导致难以准确执行用户下达的指令的问题,提高了用户的控制指令的识别效果,达到提高用户体验的效果。
本发明实施例中,从所述混合语音信息中提取出N个语音信号可以包括:对所述混合语音信息进行特征提取,根据提取的所述混合语音信息的特征进行语音分离,得到所述N个语音信号。具体地,可以通过多人语音分离算法将所述语音信息中各个用户语音分离。
本发明实施例中,根据差异化对比的结果确定待识别语音信号可以包括:在所述N个语音信号为两个语音信号的情况下,将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号;在所述N个语音信号为大于或等于三个语音信号的情况下,将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号。具体地,可以为每种语音特征设置不同的权重系数,根据权重系数计算出语音特征差异较大的语音信号,识别差异较大的语音信号即可。
进一步地,将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号包括:根据所述N个语音信号的语音特征将所述N个语音信号进行排列;根据预先为语音特征分配的权重系数计算得到所述N个语音信号中差异性最大的语音信号;确定差异性最大的语音信号为所述待识别语音信号。上述的语音特征至少包括以下之一:语速、音色、音调、响度。
若识别了多个语音信号的根据语音强度语速、音色、音调、响度,经过对比语速、音色、音调差别均不大,则将所述语音信息中所述用户语音根据语音响度从强到弱逐个通过本地识别;若识别了多个语音信号的根据语音强度语速、音色、音调、响度,经过对比响度、音色、音调差别均不大,则将所述语音信息中所述用户语音根据语音语速从强到弱逐个通过本地识别,之后判断所述用户语音是否与空调控制相关。将所述语音信息中与空调控制相关且语音响度最大的所述用户语音识别筛选出,所述语音信息中与空调控制相关且语音响度最大的所述用户语音即为指令语音;进一步的,将所述指令语音转化成相应的空调控制命令,将所述空调控制命令转化为反馈语音并播放;再次采集到用户对所述反馈语音作出的判断结果,根据所述判断结果,根据所述空调控制命令输出控制信号实现对空调的相应控制;或对用户再次下达的语音信息进行语音分离。
多人会话时,基于声纹识别提取出多个语音信号;服务器有基于用户声纹的模型,如果当拾音器拾取的声音信号经过预处理后辨别出混合信号,认为是多人会话场景。每个人的声纹独一无二,基于声纹可以将语音信号拆分为多个基于声纹的语音信号。对多个语音信号的语速、音色、音调、响度进行差异对比,将差异较大的语音信号对象视为识别对象,优先对其语义进行解析。语速越急促、音色越尖锐、音调越偏向阈值、响度越大的语音信号权重越重。选择权重最大的语音信号进行后续识别过程,其他的语音信号不识别。音调的阈值为基于控制指令训练出来的音调模型。图3是根据本发明实施例的多人语音识别处理的流程图,如图3所示,包括:
步骤S302,采集语音并识别语音信号;
步骤S304,判断是否多种声纹,在判断结果为否的情况下,执行步骤S306,在判断结果为是的情况下,执行步骤S308;
步骤S306,进入后续识别过程;
步骤S308,基于声纹将语音信号分解为多个语音信号;
步骤S310,对多个语音信号进行语速、音色、音调、响度方面的对比;
步骤S312,根据预先为语音特征设置的权重系数计算多个语音信号的语音特征差值;
例如,语速为A、音色为B、音调为C、响度为D,混合语音中识别出语音信号1,语音信号2和语音信号3,语音信号1的语音特征为A1、B1、C1、D1,语音信号2的语音特征为A2、B2、C2、D2,语音信号3的语音特征为A3、B3、C3、D3,若事先设置的语速A的权重系数为K1、音色B的权重系数为K2,音调C的权重系数为K3,响度D的权重系数为K4,语音信号1与语音信号2的语音特征差值为X1=K1(A1-A2)+K2(B1-B2)+K3(C1-C2)+K4(D1-D2),若X1大于0,则计算语音信号1与语音信号3的语音特征差值X2=K1(A1-A3)+K2(B1-B3)+K3(C1-C3)+K4(D1-D3),若X2大于0,则确定语音信号1为待识别的语音信号,若X2小于0,则确定语音信号3为待识别的语音信号。
步骤S314,根据计算得到的语音特征值确定待识别的语音信号,之后对确定的语音信号进行后续识别过程,其他的语音信号不识别,其中,可以选择语速急促、音色尖锐、音调偏向阈值、响度越大的语音信号。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种语音识别处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的语音识别处理装置的框图,如图4所示,包括:
采集模块42,用于通过麦克采集多人发出的混合语音信息;
提取模块44,用于从所述混合语音信息中提取出N个语音信号;
差异化对比模块46,用于对所述N个语音信号的语音特征进行差异化对比;
确定模块48,用于根据差异化对比的结果确定待识别语音信号;
解析模块410,用于对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作。
图5是根据本发明优选实施例的语音识别处理装置的框图一,如图5所示,所述提取模块44包括:
特征提取单元52,用于对所述混合语音信息进行特征提取;
分离单元54,用于根据提取的所述混合语音信息的特征进行语音分离,得到所述N个语音信号。
图6是根据本发明优选实施例的语音识别处理装置的框图二,如图6所示,所述确定模块48包括:
第一确定单元62,用于在所述N个语音信号为两个语音信号的情况下,将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号;
第二确定单元64,用于在所述N个语音信号为大于或等于三个语音信号的情况下,将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号。
可选地,所述确定模块48包括:
排列单元,用于根据所述N个语音信号的语音特征将所述N个语音信号进行排列;
计算单元,用于根据预先为语音特征分配的权重系数计算得到所述N个语音信号中差异性最大的语音信号;
第三确定单元,用于确定差异性最大的语音信号为所述待识别语音信号。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S11,通过麦克采集多人发出的混合语音信息;
S12,从所述混合语音信息中提取出N个语音信号;
S13,对所述N个语音信号的语音特征进行差异化对比;
S14,根据差异化对比的结果确定待识别语音信号;
S15,对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S11,通过麦克采集多人发出的混合语音信息;
S12,从所述混合语音信息中提取出N个语音信号;
S13,对所述N个语音信号的语音特征进行差异化对比;
S14,根据差异化对比的结果确定待识别语音信号;
S15,对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音识别处理方法,其特征在于,包括:
通过麦克采集多人发出的混合语音信息;
从所述混合语音信息中提取出N个语音信号,其中,N为大于1的整数;
对所述N个语音信号的语音特征进行差异化对比;
根据差异化对比的结果确定待识别语音信号;
对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作。
2.根据权利要求1所述的方法,其特征在于,所述从所述混合语音信息中提取出所述N个语音信号包括:
对所述混合语音信息进行特征提取;
根据提取的所述混合语音信息的特征进行语音分离,得到所述N个语音信号。
3.根据权利要求1所述的方法,其特征在于,所述根据差异化对比的结果确定所述待识别语音信号包括:
在所述N个语音信号为两个语音信号的情况下,将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号;
在所述N个语音信号为大于或等于三个语音信号的情况下,将所述N个语音信号中语音特征差异最大的语音信号确定为所述待识别语音信号。
4.根据权利要求3所述的方法,其特征在于,所述将所述N个语音信号中语音特征差异最大的语音信号确定为所述待识别语音信号包括:
根据所述N个语音信号的语音特征将所述N个语音信号进行排列;
根据预先为语音特征分配的权重系数计算得到所述N个语音信号中差异性最大的语音信号;
确定差异性最大的语音信号为所述待识别语音信号。
5.根据权利要求4所述的方法,其特征在于,所述语音特征至少包括以下之一:语速、音色、音调、响度。
6.一种语音识别处理装置,其特征在于,包括:
采集模块,用于通过麦克采集多人发出的混合语音信息;
提取模块,用于从所述混合语音信息中提取出N个语音信号,其中,N为大于1的整数;
差异化对比模块,用于对所述N个语音信号的语音特征进行差异化对比;
确定模块,用于根据差异化对比的结果确定待识别语音信号;
解析模块,用于对所述待识别语音信号进行语义解析得到控制指令,执行与所述控制指令对应的操作。
7.根据权利要求6所述的装置,其特征在于,所述提取模块包括:
特征提取单元,用于对所述混合语音信息进行特征提取;
分离单元,用于根据提取的所述混合语音信息的特征进行语音分离,得到所述N个语音信号。
8.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
第一确定单元,用于在所述N个语音信号为两个语音信号的情况下,将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号;
第二确定单元,用于在所述N个语音信号为大于或等于三个语音信号的情况下,将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811162123.XA CN109065051B (zh) | 2018-09-30 | 2018-09-30 | 一种语音识别处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811162123.XA CN109065051B (zh) | 2018-09-30 | 2018-09-30 | 一种语音识别处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109065051A true CN109065051A (zh) | 2018-12-21 |
CN109065051B CN109065051B (zh) | 2021-04-09 |
Family
ID=64767530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811162123.XA Active CN109065051B (zh) | 2018-09-30 | 2018-09-30 | 一种语音识别处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109065051B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110139146A (zh) * | 2019-04-03 | 2019-08-16 | 深圳康佳电子科技有限公司 | 基于声纹识别的语音识别抗干扰方法、装置及存储介质 |
CN111013068A (zh) * | 2019-12-09 | 2020-04-17 | 芜湖乐哈哈信息科技有限公司 | 一种用于大空间消防工程的消防炮语音智能灭火系统 |
CN111724776A (zh) * | 2019-03-22 | 2020-09-29 | 株式会社日立大厦系统 | 多人对话系统和多人对话方法 |
WO2021012734A1 (zh) * | 2019-07-25 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN113223497A (zh) * | 2020-12-10 | 2021-08-06 | 上海雷盎云智能技术有限公司 | 智能语音识别处理方法及系统 |
CN113836936A (zh) * | 2021-09-22 | 2021-12-24 | 珠海格力电器股份有限公司 | 语义解析方法、系统、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060053003A1 (en) * | 2003-06-11 | 2006-03-09 | Tetsu Suzuki | Acoustic interval detection method and device |
CN102013253A (zh) * | 2009-09-07 | 2011-04-13 | 株式会社东芝 | 基于语音单元语速的差异的语音识别方法及语音识别系统 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN105760154A (zh) * | 2016-01-27 | 2016-07-13 | 广东欧珀移动通信有限公司 | 一种音频控制方法和装置 |
CN105975569A (zh) * | 2016-05-03 | 2016-09-28 | 深圳市金立通信设备有限公司 | 一种语音处理的方法及终端 |
US20170069321A1 (en) * | 2014-03-28 | 2017-03-09 | Panasonic Intellectual Property Management Co., Ltd. | Voice command input device and voice command input method |
CN107437415A (zh) * | 2017-08-09 | 2017-12-05 | 科大讯飞股份有限公司 | 一种智能语音交互方法及系统 |
CN107729433A (zh) * | 2017-09-29 | 2018-02-23 | 联想(北京)有限公司 | 一种音频处理方法及设备 |
CN107797533A (zh) * | 2017-09-14 | 2018-03-13 | 成都晓懋科技有限公司 | 一种智能家居的控制系统 |
CN108159702A (zh) * | 2017-12-06 | 2018-06-15 | 广东欧珀移动通信有限公司 | 基于多人语音游戏处理方法和装置 |
-
2018
- 2018-09-30 CN CN201811162123.XA patent/CN109065051B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060053003A1 (en) * | 2003-06-11 | 2006-03-09 | Tetsu Suzuki | Acoustic interval detection method and device |
CN102013253A (zh) * | 2009-09-07 | 2011-04-13 | 株式会社东芝 | 基于语音单元语速的差异的语音识别方法及语音识别系统 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
US20170069321A1 (en) * | 2014-03-28 | 2017-03-09 | Panasonic Intellectual Property Management Co., Ltd. | Voice command input device and voice command input method |
CN105760154A (zh) * | 2016-01-27 | 2016-07-13 | 广东欧珀移动通信有限公司 | 一种音频控制方法和装置 |
CN105975569A (zh) * | 2016-05-03 | 2016-09-28 | 深圳市金立通信设备有限公司 | 一种语音处理的方法及终端 |
CN107437415A (zh) * | 2017-08-09 | 2017-12-05 | 科大讯飞股份有限公司 | 一种智能语音交互方法及系统 |
CN107797533A (zh) * | 2017-09-14 | 2018-03-13 | 成都晓懋科技有限公司 | 一种智能家居的控制系统 |
CN107729433A (zh) * | 2017-09-29 | 2018-02-23 | 联想(北京)有限公司 | 一种音频处理方法及设备 |
CN108159702A (zh) * | 2017-12-06 | 2018-06-15 | 广东欧珀移动通信有限公司 | 基于多人语音游戏处理方法和装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724776A (zh) * | 2019-03-22 | 2020-09-29 | 株式会社日立大厦系统 | 多人对话系统和多人对话方法 |
CN110139146A (zh) * | 2019-04-03 | 2019-08-16 | 深圳康佳电子科技有限公司 | 基于声纹识别的语音识别抗干扰方法、装置及存储介质 |
WO2021012734A1 (zh) * | 2019-07-25 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN111013068A (zh) * | 2019-12-09 | 2020-04-17 | 芜湖乐哈哈信息科技有限公司 | 一种用于大空间消防工程的消防炮语音智能灭火系统 |
CN113223497A (zh) * | 2020-12-10 | 2021-08-06 | 上海雷盎云智能技术有限公司 | 智能语音识别处理方法及系统 |
CN113836936A (zh) * | 2021-09-22 | 2021-12-24 | 珠海格力电器股份有限公司 | 语义解析方法、系统、装置、设备及存储介质 |
CN113836936B (zh) * | 2021-09-22 | 2023-10-13 | 珠海格力电器股份有限公司 | 语义解析方法、系统、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109065051B (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065051A (zh) | 一种语音识别处理方法及装置 | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
US20170323644A1 (en) | Speaker identification device and method for registering features of registered speech for identifying speaker | |
CN110134022A (zh) | 智能家居设备的声音控制方法、装置、及电子装置 | |
CN108159702B (zh) | 基于多人语音游戏处理方法和装置 | |
CN111063341A (zh) | 复杂环境中多人语音的分割聚类方法及系统 | |
CN110544469B (zh) | 语音识别模型的训练方法及装置、存储介质、电子装置 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
CN110704590B (zh) | 扩充训练样本的方法和装置 | |
CN109395376A (zh) | 基于游戏直播的交互方法、装置和系统 | |
CN110390946A (zh) | 一种语音信号处理方法、装置、电子设备和存储介质 | |
CN109767757A (zh) | 一种会议记录生成方法和装置 | |
CN108681390A (zh) | 信息交互方法和装置、存储介质及电子装置 | |
CN110119514A (zh) | 信息的即时翻译方法、装置和系统 | |
CN108172219A (zh) | 识别语音的方法和装置 | |
CN109003600B (zh) | 消息处理方法及装置 | |
CN109785846A (zh) | 单声道的语音数据的角色识别方法及装置 | |
DE112018007847B4 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm | |
EP1280137A1 (en) | Method for speaker identification | |
CN115171731A (zh) | 一种情绪类别确定方法、装置、设备及可读存储介质 | |
CN109300474A (zh) | 一种语音信号处理方法及装置 | |
CN108932947A (zh) | 语音控制方法及家电设备 | |
CN111508530A (zh) | 语音情感识别方法、装置及存储介质 | |
CN111128127A (zh) | 一种语音识别处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |