CN113132519A - 电子设备、电子设备的语音识别方法及存储介质 - Google Patents

电子设备、电子设备的语音识别方法及存储介质 Download PDF

Info

Publication number
CN113132519A
CN113132519A CN202110402537.0A CN202110402537A CN113132519A CN 113132519 A CN113132519 A CN 113132519A CN 202110402537 A CN202110402537 A CN 202110402537A CN 113132519 A CN113132519 A CN 113132519A
Authority
CN
China
Prior art keywords
sound source
source signal
microphone
target
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110402537.0A
Other languages
English (en)
Other versions
CN113132519B (zh
Inventor
章锦腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202110402537.0A priority Critical patent/CN113132519B/zh
Publication of CN113132519A publication Critical patent/CN113132519A/zh
Application granted granted Critical
Publication of CN113132519B publication Critical patent/CN113132519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/03Constructional features of telephone transmitters or receivers, e.g. telephone hand-sets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例提供了一种电子设备、电子设备的语音识别方法及存储介质,电子设备包括用于获取外界的第一声源信号的第一路麦克风;用于获取外界的第二声源信号的第二路麦克风;处理器用于接收第一路麦克风获取到的第一声源信号和第二路麦克风获取到的第二声源信号;对第一声源信号进行处理形成目标波束,目标波束包括第三声源信号;分别对第三声源信号和第二声源信号进行盲源分离处理,得到第一目标声源信号和第二目标声源信号;将第一目标声源信号和第二目标声源信号合并得到目标声源信号,并对目标声源信号进行识别。通过对两路麦克风获取到的声源信号进行盲源分离处理,对目标声源信号进行增强,进而提高电子设备的语音识别性能。

Description

电子设备、电子设备的语音识别方法及存储介质
技术领域
本申请涉及电子设备技术领域,具体涉及一种电子设备、电子设备的语音识别方法及存储介质。
背景技术
随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的是海量数据的产生,其中,语音数据受到了人们越来越多的重视。其中,语音识别技术(Automatic Speech Recognition,ASR)可用于获取语音数据,其目标是将人类的语音中的词汇内容转换成计算机可读的输入,例如按键、二进制编码或者字符系列。语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。相关技术中,语音识别技术在高信噪比的场景下识别性能良好,但在低信噪比的场景下,通常识别性能不佳。
发明内容
本申请实施例提供一种电子设备、电子设备的语音识别方法及存储介质,能够提高电子设备的语音识别性能。
第一方面,本申请实施例提供一种电子设备,所述电子设备包括:
第一路麦克风,所述第一路麦克风用于获取外界的第一声源信号;
第二路麦克风,所述第二路麦克风用于获取外界的第二声源信号;
处理器,所述处理器分别与所述第一路麦克风、所述第二路麦克风电连接,所述处理器用于:
接收所述第一路麦克风获取到的第一声源信号和所述第二路麦克风获取到的第二声源信号;
对所述第一声源信号进行处理形成目标波束,其中,所述目标波束包括第三声源信号;
分别对所述第三声源信号和所述第二声源信号进行盲源分离处理,得到第一目标声源信号和第二目标声源信号;
将所述第一目标声源信号和所述第二目标声源信号合并得到目标声源信号,并对所述目标声源信号进行识别。
第二方面,本申请实施例提供一种电子设备的语音识别方法,所述电子设备包括:
第一路麦克风,所述第一路麦克风用于获取外界的第一声源信号;
第二路麦克风,所述第二路麦克风用于获取外界的第二声源信号,所述方法包括:
接收所述第一路麦克风获取到的第一声源信号和所述第二路麦克风获取到的第二声源信号;
对所述第一声源信号进行处理形成目标波束,其中,所述目标波束包括第三声源信号;
分别对所述第三声源信号和所述第二声源信号进行盲源分离处理,得到第一目标声源信号和第二目标声源信号;
将所述第一目标声源信号和所述第二目标声源信号合并得到目标声源信号,并对所述目标声源信号进行识别。
第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行本申请实施例提供的电子设备的语音识别方法。
本申请实施例中,通过接收第一路麦克风获取到的第一声源信号和第二路麦克风获取到的第二声源信号;对第一声源信号进行处理形成目标波束,目标波束包括第三声源信号;分别对第三声源信号和第二声源信号进行盲源分离处理,得到第一目标声源信号和第二目标声源信号;将第一目标声源信号和第二目标声源信号合并得到目标声源信号,并对目标声源信号进行识别。通过对两路麦克风获取到的声源信号进行盲源分离处理,对目标声源信号进行增强,进而提高电子设备的语音识别性能。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的电子设备的第一种结构框图。
图2是本申请实施例提供的电子设备的结构示意图。
图3是本申请实施例提供的电子设备的第二种结构框图。
图4是本申请实施例提供的电子设备语音识别的流程示意图。
图5是本申请实施例提供的电子设备的语音识别方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护范围。
在本申请的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。
随着数据处理技术的不断发展,语音数据处理也逐渐被人们所重视。其中,语音识别技术进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。但是语音识别技术在高信噪比场景下识别性能良好,但在低信噪比的场景下,通常识别性能不佳。其中,信噪比是指一个电子设备或者电子系统中信号与噪声的比例。这里面的信号指的是来自设备外部需要通过这台电子设备进行处理的电子信号,噪声是指经过该设备后产生的源信号中并不存在的无规则的额外信号,并且该种信号并不随源信号的变化而变化。也就是说,信噪比较低可以理解为噪声过大,因此会影响电子设备对于所需要处理的电子信号的识别能力。
为解决该问题,本申请实施例提供一种电子设备。请参阅图1,图1是本申请实施例提供的电子设备的第一种结构框图。该电子设备100可以是智能手机、智能音箱、平板电脑、笔记本电脑、台式电脑、智能家居、掌上电脑(PDA,Personal Digital Assistant)等等。
其中,电子设备100可以包括第一路麦克风101和第二路麦克风102。需要说明的是,该电子设备100并不限于以上器件,还可以包括其它器件,在此不作具体说明。
需要说明的是,麦克风可以作为采集信号的设备,其采集到的信号会包括一定的干扰源,干扰源也可以理解为噪音或混响,若对噪音或混响不进行处理会影响到最后所要的语音结果,噪音或混响不仅会影响语音增强的效果,还会降低语音识别的准确度。因此,需要对噪音或混响进行处理以尽可能消除问题。
其中,噪音可以包括稳态噪音和非稳态噪音。以电子设备100放置在室内为例,稳态噪音可以是空调的声音、冰箱的声音、钟表的声音等等;非稳态噪音可以是电视播放的声音、播放音乐的声音以及用户讲话的声音等等。稳态噪音可以理解为处于正常工作状态下机器所发出的声音,非稳态噪音可以理解为用户根据需求所制造的声音。
若用户需要使用电子设备100进行语音识别时,稳态噪音和非稳态噪音均可以对语音识别的准确性产生影响。其中,稳态噪音的消除可以采用数字信号处理技术进行消除,本申请实施例所提供的电子设备可以有效消除非稳态噪音,当然,电子设备100也可以消除稳态噪音。
需要说明的是,电子设备100的语音识别性能可以包括近场语音识别和远场语音识别。近场语音识别通常是指用户手持设备的情况,例如使用输入法中的语音输入等。
其中,用户在使用近场语音识别对电子设备进行操控的操作流程可以是用户点击开始说话按钮—打开麦克风—交互界面显示话筒和说话界面—电子设备检测用户语音—接收语音并开始识别—未检测到声音或者检测到声音—检测识别流程结束。
远场语音识别需要借助语音激活检测和语音唤醒等操作,但在近场语音识别中可以将点击开始说话按钮作为语音唤醒性能,并且近场语音识别用户与电子设备接触距离较近因此无需语音激活检测,其受噪声的影响程度小,信噪比较高,语音识别可以达到很高的识别率。
然而远场语音识别中,目标声源距离电子设备的拾音器较远,采集到的声源信号幅度过低,噪声、混响等干扰因素尤为凸显,使得识别的目标信号衰减严重,信噪比过低,会导致远场语音识别率不高。其中,拾音器是电子设备中采集外界声源再传送至电子设备后端设备的器件。
为此,本申请实施例提供了电子设备100以解决远场语音识别对于非稳态噪音唤醒率不高的问题,其中,唤醒率可以理解为电子设备100的语音识别率。
其中,第一路麦克风101可以获取外界的第一声源信号。该第一声源信号可以是用户想要电子设备100进行语音识别的有用信号。第一路麦克风100可以包括多个麦克风,多个麦克风的数量可以为大于一的偶数,比如2个、4个、6个、8个等等,也可以为大于一的奇数,比如3个、5个、7个等等。其中,多个麦克风中每个麦克风均可以获取外界的声源信号,因此可以获取到外界的多个声源信号,而将多个声源信号叠加即可形成外界的第一声源信号。
请参阅图2,图2是本申请实施例提供的电子设备的结构示意图。本实施例以电子设备100为手机进行说明。电子设备100中第一路麦克风101可以包括4个麦克风,分别为麦克风A0、麦克风A1、麦克风A2以及麦克风A3。第一路麦克风101可以设置在电子设备100的一个侧边,比如电子设备100的底边、电子设备100的顶边或者电子设备100的侧边。
第一路麦克风101所获取到的第一声源信号是由麦克风A0、麦克风A1、麦克风A2以及麦克风A3所获取到的多个声源信号叠加而成的。麦克风A0、麦克风A1、麦克风A2以及麦克风A3可以组成麦克风阵列,通过对第一声源信号进行麦克风阵列波束形成处理,可以在第一路麦克风101的中心点附近形成具有指向性的目标波束。
需要说明的是,将多个麦克风按照一定的序列排列后,附加对应的算法可以解决很多室内声源问题。比如,声源定位、去混响、语音增强、盲源分离等。
其中,语音增强是指当语音信号被噪音干扰甚至淹没后,从含有噪声的语音信号中提取出纯净语音的过程。
其中,声源定位技术是指使用麦克风阵列来计算用户发出声源信号的距离和角度,从而实现对用户的跟踪以及后续的语音拾取等。可以理解的是,外界的声源包括远场声源和近场声源。近场声源由于发出声源信号的用户距离电子设备100较近,因此无需声源定位技术进行检测定位。而对于远场声源来说,如果远场声源的方向与非稳态噪音方向相同,则会造成语音识别性能下降,因此需要根据声源定位技术确定远场声源的方向,以通过麦克风阵列进一步对声源信号进行语音增强,以满足电子设备100的语音识别性能。
声音定位的算法原理是可以分为两大类,即麦克风阵列声源定位和声强探头声场测试。麦克风阵列由几个到上千个麦克风,按照一定规则排列组成。多个麦克风同步采集声音信号,利用多个麦克风之间的信号相位差,求得噪声源信号的发出位置。声强探头由两个传声器面对面组成一个联合体,可以测量空间每一点的声压、声波振速大小和方向,在被测物体表面或包络面附近扫描测试,可以得到被测物体附近的声场分布情况,从而掌握噪声源位置和分布。麦克风阵列一般用于距离相对较远的声源定位,噪声源大小相对于麦克风阵列距离来说较小。
其中,去混响技术能很好的对室内混响情况进行自适应的估计,从而很好的进行纯净信号的还原,显著的提升了语音听感和识别效果。
请继续参阅图1和2,第二路麦克风102包括麦克风A4,第二路麦克风102可以获取外界的第二声源信号。该第二声源信号可以为噪音信号或混响信号,也就是对电子设备100语音识别性能造成干扰的信号,即第二声源信号会对第一声源信号造成干扰。因此,需要将第二路麦克风102设置在第一路麦克风101所获取到的第一声源信号形成的目标波束的范围之外,以避免第二声源信号对第一声源信号造成干扰。
比如,第一路麦克风101设置在电子设备100的底边,则第二路麦克风102设置在电子设备100的顶边;第一路麦克风101设置在电子设备100的顶边,则第二路麦克风102设置在电子设备100的底边。需要说明的是,第一路麦克风101所形成的目标波束的范围与麦克风的数量有关,比如,第一路麦克风101包括两个麦克风,其目标波束的范围在12厘米-15厘米;第一路麦克风101包括四个麦克风,其目标波束的范围在8厘米-12厘米,用户可以根据麦克风的数量所对应的目标波束的范围以及电子设备的各边长度对第二路麦克风102的位置进行设定,只需保证第二路麦克风102设置在目标波束的范围之外即可,具体位置不作具体限定。
请参阅图3,图3是本申请实施例提供的电子设备的第二种结构框图。其中,电子设备100还可以包括处理器103和存储器104,处理器103可以用来处理电子设备100的各种操作,处理器103及存储器104可以集成在电子设备100的电路板上,处理器103分别与第一路麦克风101、第二路麦克风102及存储器104电连接。
处理器103是电子设备100的控制中心,利用各种接口和线路连接整个电子设备100的各个部分,通过运行或加载存储在存储器内的计算机程序,以及调用存储在存储器内的数据,执行电子设备100的各种性能。
处理器103可以接收第一路麦克风101获取到的第一声源信号和第二路麦克风102获取到的第二声源信号;可以对第一声源信号进行处理形成目标波束,其中,目标波束包括第三声源信号;分别对第三声源信号和第二声源信号进行盲源分离处理,得到第一目标声源信号和第二目标声源信号;将第一目标声源信号和第二目标声源信号合并,得到目标声源信号,并对目标声源信号进行识别,以实现电子设备100的语音识别性能。
请参阅图4,图4是本申请实施例提供的电子设备语音识别的流程示意图。本实施例所提供的电子设备100是采用双通道语音信号识别技术,第一路麦克风101为主通道,第二路麦克风102为副通道,通过主通道对用户目标信号进行语音增强,通过副通道对于噪音信号进行消除,从不同方向对电子设备100接收到的声源信号进行处理,从而实现对于目标信号的增强以及噪音信号的减弱,进而基于多通道语音识别技术提高语音识别率。
其中,第一路麦克风101中包括多个麦克风,以4个麦克风为例,分别为麦克风1、麦克风2、麦克风3和麦克风4。麦克风1、麦克风2、麦克风3和麦克风4组成麦克风阵列,麦克风1可以获取声源信号1,麦克风2可以获取声源信号2,麦克风3可以获取声源信号3,麦克风4可以获取声源信号4,将声源信号1、声源信号2、声源信号3和声源信号4叠加形成第一声源信号。
将第一声源信号通过麦克风阵列波束形成处理,以形成目标波束。需要说明的是,麦克风阵列波束形成也可称为自适应波束形成,其形成原理为阵列输出选取一个适当的加权向量以补偿各个阵元的传播时延,从而使得在某一个期望方向上输出同向叠加,进而使得阵列在该方向上产生一个波束,并在该方向上对干扰进行一定程度的抑制。自适应波束形成是在最优准则下通过自适应算法来实现权集寻优,自适应波束能适应环境变化,实时将权集调整到最佳位置附近。其中,自适应波束形成可以通过不同准则确定自适应权,并利用不同自适应算法实现。主要准则有最小均方误差准则、最大信噪比准则、最大似然比准则、最小噪声方差准则等。自适应算法按照算法实现包括闭环算法和开环算法,闭环算法有最小均方算法、差分最陡下降算法、加速梯度算法及以上算法的变形;开环算法有直接求逆算法。
该目标波束具有指向性,其包括第三声源信号,该第三声源信号为电子设备100对于第一路麦克风101所获取到的第一声源信号的初步增强。处理器103可以通过自适应滤波算法分别对第三声源信号和第二路麦克风102中的麦克风5获取到的第二声源信号进行盲源分离处理,得到输出后的第一目标声源信号和第二目标声源信号,其中,第三声源信号与第一目标声源信号正相关,第二声源信号与第二目标声源信号正相关。
需要说明的是,盲源分离是指在多源多传感器问题中,只根据对源信号及传输信道的基本假设,由观测信号分离并恢复源信号的过程。由于在非稳态噪音的影响下,源信号之间是非统计独立的,需要使用二阶统计量方法进行去相关处理,盲源分离处理的过程也就是去相关处理的过程。
其中,电子设备可以设置信号增强后的预设值,其中,该预设值与实际值会存在相应的误差,二者的关系式为:
Figure BDA0003020958950000081
其中,y1(t)为误差信号,y2(t)为观测信号,x(t)为期望信号,观测信号为第三声源信号和第二声源信号经过卷积运算得到的信号,即实际值,期望信号为电子设备所设置能够满足最高优化需求的预设信号,由于对观测信号的处理过程中存在误差,因此期望信号是大于观测信号的。从公式中可以看出y1(t)与y2(t)满足正交性原理,说明误差信号与观测信号满足正相关,即误差信号的大小跟观测信号的大小是存在相关性的。
其中,盲源分离处理可以使用自适应滤波算法,具体采用最小均方算法,最小均方算法,是一种最陡下降算法的改进算法,是在维纳滤波理论上运用速下降法后的优化延伸。该算法不需要已知输入信号和期望信号的统计特征,由于当前时刻与上一时刻存在相关性,因此需要去相关处理,具体为当前时刻的权系数是通过上一时刻权系数再加上一个负均方误差梯度的比例项求得。其具有计算复杂程度低、在信号为平稳信号的环境中收敛性好、其期望值无偏地收敛到维纳解和利用有限精度实现算法时的平稳性等特性,使最小均方算法成为自适应算法中稳定性最好、应用最广的算法。使用自适应滤波算法进行滤波处理的公式为:
y(n)-WT(n)x(n)
其中,y(n)为输出信号,x(n)为输入信号,W为滤波系数,从公式可以看出滤波系数越高,输出信号也就越强,其中第三声源信号与第一目标声源信号正相关,第二声源信号与第二目标声源信号正相关。由于当前时刻与上一时刻存在相关性,因此需要去相关处理,并且当前时刻与上一时刻的滤波系数不同,当前时刻的滤波系数的公式为:
W(n)=W(n-1)+2μe(n)x(n)
其中,当前时刻的滤波系数与上一时刻的滤波系数以及输入信号相关。本实施例通过双通道语音识别技术,对第一路麦克风101进行麦克风阵列处理初步增强第一声源信号,得到第三声源信号,再对第一路麦克风101和第二路麦克风102两路通道进行盲源分离处理去相关,得到第一目标声源信号和第二目标声源信号,最后将第一目标声源信号和第二目标声源信号合并,得到目标信号,该目标信号即为通过双通道语音识别技术进行语音增强的信号,并通过电子设备100对该目标信号进行识别,以最终实现电子设备100的语音识别性能。其中,对于双通道语音识别技术中的第一路麦克风101所在通道是对于主信号即第一声源信号的增强,第二路麦克风102所在通道是对于噪音信号即第二声源信号的减弱,而上述将处理后的第一目标声源信号和第二目标声源信号合并可以理解为将一条通道增强有用信号一条通道降低噪音信号,能够有效防止使用同一通道处理噪音信号对于有用信号的影响。
其中,第一路麦克风101的数量与第一声源信号的能量正相关,即麦克风的数量越多,多获取到的声源信号的能量越高,比如4个麦克风获取到的声源信号大于2个麦克风获取到的声源信号。而对于第一路麦克风101和第二路麦克风102进行盲源分离处理后,体现盲源处理性能好坏是通过判断第一路麦克风101所在通道输入的声源能量与第二路麦克风102所在通道输入的声源能量的比值,即第一路麦克风101包含麦克风的数量越多,第一声源能量越大,盲源分离的性能越好,进而使目标声源信号的能量越大,从而达到对声源信号语音增强的效果。但需克服麦克风数量过多,导致能量过高而电子设备100的功放电压饱和失真的问题,具体数量在此不作具体限定。
另外,对于本申请实施例提供的电子设备的语音识别能力的检测以室内为例,用户发出的声源信号距离电子设备100一米,环境噪音主要为电视播放的非稳态噪音,电子设备100中第一路麦克风101包括4个麦克风,第二路麦克风102包括1个麦克风,经过麦克风阵列处理及盲源分离处理之后,电子设备100的唤醒率提高了5%,即电子设备100的语音识别能力提高了5%。
由上可知,本实施例中通过双通道语音识别技术对远场声源进行识别,第一路麦克风101所在通道的第一声源信号进行麦克风阵列处理得到第三声源信号,对第二路麦克风102所在通道的第二声源信号及第三声源信号同时进行盲源分离处理,得到第一目标声源信号和第二目标声源信号,进行合并得到目标声源信号,并对该目标声源信号进行识别,对目标声源进行了增强,进而提高电子设备的语音识别性能。
本申请实施例还提供了一种电子设备的语音识别方法,请参阅图5,图5是本申请实施例提供的电子设备的语音识别方法的流程示意图。处理器可以通过调用存储器中存储的计算机程序,以执行该电子设备的语音识别方法。其中,汽车包括前挡风玻璃和显示设备。该电子设备的语音识别方法可以包括以下步骤:
201,接收第一路麦克风获取到的第一声源信号和第二路麦克风获取到的第二声源信号。
电子设备包括第一路麦克风和第二路麦克风,第一路麦克风可以获取外界的第一声源信号。该第一声源信号可以是用户想要电子设备进行语音识别的有用信号。第一路麦克风包括多个麦克风,多个麦克风的的数量为大于一的偶数或奇数,多个麦克风中每个麦克风均可以获取外界的声源信号,因此可以获取到外界的多个声源信号,而将多个声源信号叠加即可形成外界的第一声源信号。
第二路麦克风可以获取外界的第二声源信号。该第二声源信号可以为噪音信号或混响信号,也就是对电子设备语音识别性能造成干扰的信号,即第二声源信号会对第一声源信号造成干扰。因此,需要将第二路麦克风设置在第一路麦克风所获取到的第一声源信号形成的目标波束的范围之外,以避免第二声源信号对第一声源信号造成干扰。
202,对第一声源信号进行处理形成目标波束,其中,目标波束包括第三声源信号。
第一路麦克风所包含的多个麦克风组成麦克风阵列,将第一声源信号通过麦克风阵列波束形成处理,以形成目标波束。该目标波束具有指向性,其包括第三声源信号,该第三声源信号为电子设备对于第一路麦克风所获取到的第一声源信号的初步增强。
203,分别对第三声源信号和第二声源信号进行盲源分离处理,得到第一目标声源信号和第二目标声源信号。
通过自适应滤波算法分别对第三声源信号和第二声源信号进行盲源分离处理,得到输出后的第一目标声源信号和第二目标声源信号,其中,第三声源信号与第一目标声源信号正相关,第二声源信号与第二目标声源信号正相关。
204,将第一目标声源信号和第二目标声源信号合并得到目标声源信号,并对目标声源信号进行识别。
通过双通道语音识别技术,对第一路麦克风进行麦克风阵列处理初步增强第一声源信号,得到第三声源信号,再对第一路麦克风和第二路麦克风两路通道进行盲源分离处理去相关,得到第一目标声源信号和第二目标声源信号,最后将第一目标声源信号和第二目标声源信号合并,得到目标信号,该目标信号即为通过双通道语音识别技术进行语音增强的信号,并通过电子设备对该目标信号进行识别,以最终实现电子设备的语音识别性能。
其中,第一路麦克风101的数量与第一声源信号的能量正相关,即麦克风的数量越多,多获取到的声源信号的能量越高,比如4个麦克风获取到的声源信号大于2个麦克风获取到的声源信号。而对于第一路麦克风101和第二路麦克风102进行盲源分离处理后,体现盲源处理性能好坏是通过判断第一路麦克风101所在通道输入的声源能量与第二路麦克风102所在通道输入的声源能量的比值,即第一路麦克风101包含麦克风的数量越多,第一声源能量越大,盲源分离的性能越好,进而使目标声源信号的能量越大,从而达到对声源信号语音增强的效果。
由上可知,本实施例中通过双通道语音识别技术对远场声源进行识别,第一路麦克风所在通道的第一声源信号进行麦克风阵列处理得到第三声源信号,对第二路麦克风所在通道的第二声源信号及第三声源信号同时进行盲源分离处理,得到第一目标声源信号和第二目标声源信号,进行合并得到目标声源信号,并对该目标声源信号进行识别,对目标声源进行了增强,进而提高电子设备的语音识别性能。
本申请实施例还提供了一种计算机可读的存储介质,该存储介质存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行上述任一实施例提供的电子设备的语音识别方法。
在一些实施例中,当上述计算机程序在计算机上运行时,该计算机执行如下步骤:
接收所述第一路麦克风获取到的第一声源信号和所述第二路麦克风获取到的第二声源信号;
对所述第一声源信号进行处理形成目标波束,其中,所述目标波束包括第三声源信号;
分别对所述第三声源信号和所述第二声源信号进行盲源分离处理,得到第一目标声源信号和第二目标声源信号;
将所述第一目标声源信号和所述第二目标声源信号合并得到目标声源信号,并对所述目标声源信号进行识别。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种电子设备的语音识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种电子设备的语音识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的电子设备、电子设备的语音识别方法及存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种电子设备,其特征在于,包括:
第一路麦克风,所述第一路麦克风用于获取外界的第一声源信号;
第二路麦克风,所述第二路麦克风用于获取外界的第二声源信号;
处理器,所述处理器分别与所述第一路麦克风、所述第二路麦克风电连接,所述处理器用于:
接收所述第一路麦克风获取到的第一声源信号和所述第二路麦克风获取到的第二声源信号;
对所述第一声源信号进行处理形成目标波束,其中,所述目标波束包括第三声源信号;
分别对所述第三声源信号和所述第二声源信号进行盲源分离处理,得到第一目标声源信号和第二目标声源信号;
将所述第一目标声源信号和所述第二目标声源信号合并得到目标声源信号,并对所述目标声源信号进行识别。
2.根据权利要求1所述的电子设备,其特征在于,所述第一路麦克风包括多个麦克风,所述多个麦克风的的数量为大于一的偶数或奇数,所述多个麦克风用于获取外界的多个声源信号,并将所述多个声源信号叠加,以形成所述第一声源信号。
3.根据权利要求2所述的电子设备,其特征在于,所述多个麦克风组成麦克风阵列,所述处理器还用于对所述第一声源信号进行麦克风阵列波束形成处理,以形成所述目标波束。
4.根据权利要求1所述的电子设备,其特征在于,所述第二路麦克风设置在所述目标波束的范围之外。
5.根据权利要求1所述的电子设备,其特征在于,所述外界的声源包括远场声源和近场声源,当所述外界的声源为所述远场声源时,所述第一路麦克风还用于根据声源定位技术确定所述远场声源的方向。
6.根据权利要求1所述的电子设备,其特征在于,所述处理器还用于通过自适应滤波算法分别对所述第三声源信号和所述第二声源信号进行盲源分离处理,得到输出后的所述第一目标声源信号和所述第二目标声源信号,其中,所述第三声源信号与所述第一目标声源信号正相关,所述第二声源信号与所述第二目标声源信号正相关。
7.根据权利要求1所述的电子设备,其特征在于,所述第一路麦克风的数量与所述第一声源信号的能量正相关,所述第一声源信号的能量越大,所述目标声源信号的能量越大。
8.一种电子设备的语音识别方法,其特征在于,所述电子设备包括:
第一路麦克风,所述第一路麦克风用于获取外界的第一声源信号;
第二路麦克风,所述第二路麦克风用于获取外界的第二声源信号,所述方法包括:
接收所述第一路麦克风获取到的第一声源信号和所述第二路麦克风获取到的第二声源信号;
对所述第一声源信号进行处理形成目标波束,其中,所述目标波束包括第三声源信号;
分别对所述第三声源信号和所述第二声源信号进行盲源分离处理,得到第一目标声源信号和第二目标声源信号;
将所述第一目标声源信号和所述第二目标声源信号合并得到目标声源信号,并对所述目标声源信号进行识别。
9.根据权利要求8所述的电子设备的语音识别方法,其特征在于,所述分别对所述第三声源信号和所述第二声源信号进行盲源分离处理,得到第一目标声源信号和第二目标声源信号,包括:
通过自适应滤波算法分别对所述第三声源信号和所述第二声源信号进行盲源分离处理,得到输出后的所述第一目标声源信号和所述第二目标声源信号,其中,所述第三声源信号与所述第一目标声源信号正相关,所述第二声源信号与所述第二目标声源信号正相关。
10.根据权利要求8所述的电子设备的语音识别方法,其特征在于,所述第一路麦克风包括多个麦克风,所述多个麦克风的的数量为大于一的偶数或奇数,所述多个麦克风组成麦克风阵列,所述对所述第一声源信号进行处理形成目标波束,包括:
对所述第一声源信号进行麦克风阵列波束形成处理,以形成所述目标波束。
11.一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上执行时,使得所述计算机执行如权利要求8至10中任一项所述的电子设备的语音识别方法。
CN202110402537.0A 2021-04-14 2021-04-14 电子设备、电子设备的语音识别方法及存储介质 Active CN113132519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110402537.0A CN113132519B (zh) 2021-04-14 2021-04-14 电子设备、电子设备的语音识别方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110402537.0A CN113132519B (zh) 2021-04-14 2021-04-14 电子设备、电子设备的语音识别方法及存储介质

Publications (2)

Publication Number Publication Date
CN113132519A true CN113132519A (zh) 2021-07-16
CN113132519B CN113132519B (zh) 2023-06-02

Family

ID=76776546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110402537.0A Active CN113132519B (zh) 2021-04-14 2021-04-14 电子设备、电子设备的语音识别方法及存储介质

Country Status (1)

Country Link
CN (1) CN113132519B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110422A (zh) * 2023-04-13 2023-05-12 南京熊大巨幕智能科技有限公司 全向级联麦克风阵列降噪方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225672A (zh) * 2015-08-21 2016-01-06 胡旻波 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN105473988A (zh) * 2013-06-21 2016-04-06 布鲁尔及凯尔声音及振动测量公司 确定机动车辆的噪声源的噪声声音贡献的方法
CN106952653A (zh) * 2017-03-15 2017-07-14 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN108109617A (zh) * 2018-01-08 2018-06-01 深圳市声菲特科技技术有限公司 一种远距离拾音方法
CN108735227A (zh) * 2018-06-22 2018-11-02 北京三听科技有限公司 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统
CN108962272A (zh) * 2018-06-21 2018-12-07 湖南优浪语音科技有限公司 拾音方法和系统
US20190272842A1 (en) * 2018-03-01 2019-09-05 Apple Inc. Speech enhancement for an electronic device
CN110234043A (zh) * 2019-05-31 2019-09-13 歌尔科技有限公司 基于麦克风阵列的声音信号处理方法、装置及设备
CN111435598A (zh) * 2019-01-15 2020-07-21 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、计算机可读介质及电子设备
CN111863012A (zh) * 2020-07-31 2020-10-30 北京小米松果电子有限公司 一种音频信号处理方法、装置、终端及存储介质
CN111883166A (zh) * 2020-07-17 2020-11-03 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105473988A (zh) * 2013-06-21 2016-04-06 布鲁尔及凯尔声音及振动测量公司 确定机动车辆的噪声源的噪声声音贡献的方法
CN105225672A (zh) * 2015-08-21 2016-01-06 胡旻波 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN106952653A (zh) * 2017-03-15 2017-07-14 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN108109617A (zh) * 2018-01-08 2018-06-01 深圳市声菲特科技技术有限公司 一种远距离拾音方法
US20190272842A1 (en) * 2018-03-01 2019-09-05 Apple Inc. Speech enhancement for an electronic device
CN108962272A (zh) * 2018-06-21 2018-12-07 湖南优浪语音科技有限公司 拾音方法和系统
CN108735227A (zh) * 2018-06-22 2018-11-02 北京三听科技有限公司 一种用于对麦克风阵列拾取的语音信号进行声源分离的方法及系统
CN111435598A (zh) * 2019-01-15 2020-07-21 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、计算机可读介质及电子设备
WO2020147642A1 (zh) * 2019-01-15 2020-07-23 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、计算机可读介质及电子设备
CN110234043A (zh) * 2019-05-31 2019-09-13 歌尔科技有限公司 基于麦克风阵列的声音信号处理方法、装置及设备
CN111883166A (zh) * 2020-07-17 2020-11-03 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN111863012A (zh) * 2020-07-31 2020-10-30 北京小米松果电子有限公司 一种音频信号处理方法、装置、终端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛玮飞;郭金泉;陈进;杨晓翔;: "波叠加法在机械噪声故障特征提取中的应用研究", 机械强度 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110422A (zh) * 2023-04-13 2023-05-12 南京熊大巨幕智能科技有限公司 全向级联麦克风阵列降噪方法及系统

Also Published As

Publication number Publication date
CN113132519B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
US10535362B2 (en) Speech enhancement for an electronic device
CN109597022B (zh) 声源方位角运算、定位目标音频的方法、装置和设备
US10123113B2 (en) Selective audio source enhancement
CN107221336B (zh) 一种增强目标语音的装置及其方法
CN109817209B (zh) 一种基于双麦克风阵列的智能语音交互系统
CN109286875B (zh) 用于定向拾音的方法、装置、电子设备和存储介质
CN109102822B (zh) 一种基于固定波束形成的滤波方法及装置
CN112424863B (zh) 语音感知音频系统及方法
CN111418010A (zh) 一种多麦克风降噪方法、装置及终端设备
US20080175408A1 (en) Proximity filter
CN107369460B (zh) 基于声学矢量传感器空间锐化技术的语音增强装置及方法
US20100217590A1 (en) Speaker localization system and method
US20100098266A1 (en) Multi-channel audio device
KR20170053623A (ko) 사운드 소스들을 향상시키기 위한 방법 및 장치
CN110610718A (zh) 一种提取期望声源语音信号的方法及装置
CN108597532A (zh) 基于mvdr的隐声方法
CN110830870A (zh) 一种基于传声器技术的耳机佩戴者语音活动检测系统
US11217264B1 (en) Detection and removal of wind noise
CN113132519B (zh) 电子设备、电子设备的语音识别方法及存储介质
CN112735370B (zh) 一种语音信号处理方法、装置、电子设备和存储介质
CN113284504A (zh) 姿态检测方法、装置、电子设备及计算机可读存储介质
CN114613381A (zh) 终端设备、终端设备插件、片上系统和相关方法
CN111724808A (zh) 音频信号处理方法、装置、终端及存储介质
CN112785997B (zh) 一种噪声估计方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant