CN114401470A - 一种车载多音区拾音设备及车载控制系统 - Google Patents
一种车载多音区拾音设备及车载控制系统 Download PDFInfo
- Publication number
- CN114401470A CN114401470A CN202210035413.8A CN202210035413A CN114401470A CN 114401470 A CN114401470 A CN 114401470A CN 202210035413 A CN202210035413 A CN 202210035413A CN 114401470 A CN114401470 A CN 114401470A
- Authority
- CN
- China
- Prior art keywords
- sound
- vehicle
- zone
- voice
- beams
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 76
- 230000001629 suppression Effects 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000004887 air purification Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本文涉及车辆语音领域,提供了一种车载多音区拾音设备及车载控制系统,其中,车载多音区拾音设备包括:单麦克风阵列、收发模块、语音处理模块;单麦克风阵列设置于座舱前方,用于采集得到多个原始声音信号;收发模块连接语音处理模块及车载控制设备;语音处理模块连接所述单麦克风阵列,用于接收单麦克风阵列采集的多个原始声音信号;根据多个原始声音信号,确定车内各音区的常规波束及主副驾音区的端射波束;对端射波束及后座音区的常规波束进行语音识别,得到语音识别结果;通过收发模块发送常规波束及语音识别结果至车载控制设备,本文能够准确地识别出各音区人的声音,进而提高复杂环境下的语音交互质量,具有结构简单及成本低的优势。
Description
技术领域
本文涉及车辆语音领域,尤其涉及一种车载多音区拾音设备及车载控制系统。
背景技术
随着汽车智能化发展,出现了车载语音控制技术,而车载语音控制依赖于车内拾音方案,因此,拾音的准确性与否将会影响车载控制效果。现有技术中,已有的车载拾音方案包括:
1.单音区拾音方案:该方案无法区分说话者,因此,不能为各个说话者提供更个性化的服务,当多个说话者同时说话时,会存在响应错误的问题。
2.非麦克风阵列四音区方案:该方案在每个车门处各布置一个麦克风模组,各麦克风模组对应每一音区,该方案能够获取各音区说话者的语音并提供个性化服务,但该方案中,每一麦克风模组都需要单独的接口芯片及布线,存在系统结构复杂及成本高的问题。
发明内容
本文用于解决现有车在语音控制技术中,通过单麦克风阵列无法精确地识别各音区的说话者的声音,通过麦克风模组的方式实现各音区说话者声音的采集,存在系统结构复杂及成本高的问题。
为了解决上述技术问题,本文的第一方面提供一种车载多音区拾音设备,包括:单麦克风阵列、收发模块、语音处理模块;
所述单麦克风阵列设置于座舱前方,包括多个阵元,用于采集多个原始声音信号;
所述收发模块连接所述语音处理模块及车载控制设备,用于实现所述车载多音区拾音设备与所述车载控制设备之间的通信;
所述语音处理模块连接所述单麦克风阵列,用于接收所述单麦克风阵列采集的多个原始声音信号;根据多个原始声音信号,确定车内各音区的常规波束及主副驾音区的端射波束;对所述端射波束及后座音区的常规波束进行语音识别,得到语音识别结果;通过所述收发模块发送所述常规波束及语音识别结果至所述车载控制设备。
作为本文的进一步实施例中,所述收发模块还连接车载娱乐设备;
所述语音处理模块还用于通过所述收发模块接收所述车载娱乐设备发送的参考声音信号;利用所述参考声音信号对所述多个原始声音信号进行回声消除处理,得到待分析声音信号;
根据多个原始声音信号,确定车内各音区的常规波束及主副驾音区的端射波束进一步为根据所述待分析声音信号,确定车内各音区的常规波束及主副驾音区的端射波束。
作为本文进一步实施例中,所述语音处理模块包括依次连接的回声消除单元、波束形成单元、语音识别单元、处理单元;
所述回声消除单元用于利用所述参考声音信号对所述多个原始声音信号进行回声消除处理,得到待分析声音信号;
所述波束形成单元用于根据待分析声音信号,生成各音区的常规波束及主副驾音区的端射波束;
所述语音识别单元用于对端射波束及后座音区的常规波束进行语音识别,得到语音识别结果;
所述处理单元用于通过所述收发模块发送所述常规波束及语音识别结果至所述车载控制设备。
作为本文进一步实施例中,所述波束形成单元根据所述待分析声音信号,生成主副驾音区的端射波束,包括:
设定阵元所在直线的第一端为第一方向,第二端为第二方向,其中,所述第一方向指向主驾音区,所述第二方向指向副驾音区;
选择其中一阵元为参考阵元,对其它阵元各待分析声音信号按照形成第一方向端射波束的方式进行相位补偿,对相位补偿后的信号进行加权求和得到主驾音区的端射波束;
选择其中一阵元为参考阵元,对其它阵元各待分析声音信号按照形成第二方向端射波束的方式进行相位补偿,对相位补偿后的信号进行加权求和得到副驾音区的端射波束。
作为本文进一步实施例中,所述波束形成单元根据所述待分析声音信号,生成各音区的常规波束,包括:
根据所述第一方向及所述第二方向,设定各音区的期望方向;
选择其中一阵元为参考阵元,对其它阵元各待分析声音信号进行相位补偿,以使各待分析声音信号相位一致;
对于每一音区的期望方向执行如下操作:
在除该音区的期望方向外的其它音区的期望方向上,对各相位补偿后的信号进行声波抑制;
根据声波抑制后的信号,得到该音区在期望方向上的常规波束。
作为本文进一步实施例中,所述语音处理模块还包括:噪声抑制单元,连接于所述波束形成单元及所述处理单元,用于对各音区的常规波束进行噪声抑制处理,由所述处理单元通过所述收发模块发送噪声抑制后的波束至所述车载控制设备。
作为本文进一步实施例中,所述语音处理模块还包括:语音增强单元,连接所述噪声抑制单元及所述处理单元,用于对噪声抑制后的波束进行语音增强处理,由所述处理单元通过所述收发模块发送语音增强后的音区波束至所述车载控制设备。
作为本文进一步实施例中,所述语音识别单元对所述端射波束及后座音区的常规波束进行语音识别,得到语音识别结果包括:
对所述端射波束及后座音区的常规波束分别进行语音端点检测,以确定各音区是否存在语音;
对于存在语音的音区,计算该音区的能量;
将能量最大的音区设置为有效音区;
由语音端点检测结果及有效音区构成语音识别结果。
本文一实施例中,还提供一种车载控制系统,包括前述任一实施例所述的车载多音区拾音设备以及车载控制设备。
本实施例通过将车载多音区识别设备设计为包括:单麦克风阵列、收发模块、语音处理模块;利用单麦克风阵列采集多个原始声音信号;利用收发模块实现所述车载多音区拾音设备与所述车载控制设备之间的通信;利用语音处理模块接收单麦克风阵列采集的多个原始声音信号;根据多个原始声音信号,确定车内各音区的常规波束及主副驾音区的端射波束;对端射波束及后座音区的常规波束进行语音识别,得到语音识别结果;通过收发模块发送常规波束及语音识别结果至车载控制设备,能够通过单麦克风阵列准确地区分各音区人的声音(例如主副驾音区、左后音区及右后音区四个说话者的独立拾音),进而提高复杂环境下的语音交互质量,具有结构简单及成本低的优势。
为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本文实施例车载多音区识别设备的第一结构图;
图2示出了本文实施例车载多音区识别设备的第二结构图;
图3示出了本文实施例语音处理模块的第一结构图;
图4示出了本文实施例端射波束形成过程的流程图;
图5示出了本文实施例常规波束形成过程的流程图;
图6示出了本文实施例语音处理模块的第二结构图;
图7示出了本文实施例语音处理模块的第三结构图;
图8示出了本文实施例语音识别过程流程图;
图9示出了本文实施例车载控制系统控制流程图;
图10A示出了本文实施例端射波束图;
图10B示出了本文实施例常规波束图。
附图符号说明:
100、车载多音区拾音设备;
110、单麦克风阵列;
120、收发模块;
130、语音处理模块;
200、车载控制设备;
300、车载娱乐设备;
131、回声消除单元;
132、波束形成单元;
133、语音识别单元;
134、处理单元;
135、噪声抑制单元;
136、语音增强单元;
1001、端射波束;
1002、常规波束。
具体实施方式
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或装置产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。
需要说明的是,本申请所涉及的声音信号,均为经用户授权或者经过各方充分授权的信息和数据。
本文一实施例中,提供一种车载多音区拾音设备,用于现有车在语音控制技术中,通过单麦克风阵列无法精确地识别各音区的说话者的声音,通过麦克风模组的方式实现各音区说话者声音的采集,存在系统结构复杂及成本高的问题。具体的,如图1所示,车载多音区拾音设备100包括:单麦克风阵列110、收发模块120、语音处理模块130。
单麦克风阵列110设置于座舱前方,包括多个阵元,用于采集多个原始声音信号,每一阵元均会采集得到一原始声音信号。
收发模块120连接语音处理模块130及车载控制设备200,用于实现车载多音区拾音设备100与车载控制设备200之间的通信。
语音处理模块130连接单麦克风阵列110,用于接收单麦克风阵列110采集的多个原始声音信号;根据多个原始声音信号,确定车内各音区的常规波束及主副驾音区的端射波束;对端射波束及后座音区的常规波束进行语音识别,得到语音识别结果;通过收发模块120发送常规波束及语音识别结果至车载控制设备200。
本实施例能够通过对单麦克风阵列采集的原始声音信号进行分析,能够分离出主副驾音区的端射波束及各音区的常规波束,通过对端射波束及后座音区的常规波束进行语音识别,能够准确地实现各音区说话者声音的识别,进而提高复杂环境下的语音交互质量,具有结构简单、布线方便及成本低的优势。
详细的说,本文所述的单麦克风阵列110至少包括两个阵元,阵元可呈直线排列,圆形排列等,本文对阵元的排列方式不做限定。每一阵元均会得到一原始声音信号,每一原始声音信号为所有说话者产生的声音信号作用集合。本文所述的座舱前方例如为天窗前部,本文对单麦克风阵列安装位置不做具体限定。
本文所述的收发模块120与车载系统中车载音频总线收发芯片(例如为A2B芯片)相同,用于发送常规波束及语音识别结果至车载控制设备,以由车载控制设备根据常规波束及语音识别结果识别具有声音的常规波束,进而得到各音区的控制命令,按照预设控制逻辑控制车上的器件,例如打开或关闭车窗、打开或关闭空气净化系统、打开或关闭天窗等。
本文所述的语音处理模块130可以是中央处理单元(Central Processing Unit,CPU),或是其他可编程的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor,DSP)、可编程控制器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)或其他类似元件或上述元件的组合。
本文所述的端射波束指的是单麦克风阵列两端延伸方向上的波束,端射波束与常规波束相比,具有较强的指向性、主瓣窄、主瓣外衰减大、对主瓣背向的声音抑制强、主驾及副驾相互干扰小的优势。靠近主驾的端射波束能够准确地识别出主驾位置是否有发声,靠近副驾的端射波束能够准确地识别出副驾位置是否有发声。通过对端射波束进行语音识别,能够准确地识别出主副驾是否有声音,进而避免主副驾声音干扰导致识别错误。
本文所述的常规波束指的是指向音区期望方向的波束,其中,各音区期望方向为各音区的中心位置,例如可以根据座位中心确定各音区期望方向,还可以根据用户乘坐习惯确定各音区期望方向。常规波束相对于端射波束,信噪比更高,因此,更能识别出语音内容。通过将常规波束及语音识别结果发送至车载控制设备,能够使得车载控制设备根据语音识别结果确定存在声音的音区,并识别存在声音音区的常规波束,进而得到具体语音内容,若语音内容存在控制指令,则响应控制指令。
本文一实施例中,为了避免车载娱乐设备播放语音对说话者语音识别产生一定干扰,如图2所示,收发模块120还连接车载娱乐设备300。
语音处理模块130还用于通过收发模块120接收车载娱乐设备300发送的参考声音信号;利用参考声音信号对多个原始声音信号进行回声消除处理,得到待分析声音信号;根据多个原始声音信号,确定车内各音区的常规波束及主副驾音区的端射波束进一步为根据待分析声音信号,确定车内各音区的常规波束及主副驾音区的端射波束。
本文所述的车载娱乐设备300包括车载播放设备、车载扩音器等,车载播放设备可以播放无线电台或可移动存储设备中的音频。参考声音信号为车载娱乐设备300正在播放的声音,参考声音信号的个数与车载播放设备播放的声道数相同,例如车载播放设备为N声道,则参考声音信号为N个。具体实施时,收发模块120还可无线连接智能终端(例如智能手机、PAD等),用于接收智能终端发送的参考声音信号。
语音处理模块130可利用带通滤波器利用参考声音信号对多个原始声音信号进行回声消除处理,具体实施过程可参考现有技术,本文对此不作限定。待分析声音信号为回声消除后的声音信号,即消除车载娱乐设备噪声干扰的信号。
本实施例能够有效地消除车内娱乐设备产生的声音,从而提高说话者语音信号的信噪比。
本文一实施例中,如图3所示,语音处理模块130包括依次连接的回声消除单元131、波束形成单元132、语音识别单元133、处理单元134。
回声消除单元131用于利用参考声音信号对多个原始声音信号进行回声消除处理,得到待分析声音信号;
波束形成单元132用于根据待分析声音信号,生成各音区的常规波束及主副驾音区的端射波束;
语音识别单元133用于对端射波束及后座音区对应的常规波束进行语音识别,得到语音识别结果;
处理单元134用于通过收发模块发送所述常规波束及语音识别结果至车载控制设备。
详细的说,回声消除单元131可通过硬件或软件方式实现回声消除,具体回声消除过程可参考现有技术,此处不再详述。
波束形成单元132及语音识别单元133实施过程参考后续实施例。
处理单元134连接语音识别单元133及波束形成单元132,用于控制发送至车载控制设备的具体内容。具体实施时,处理单元134实现的功能还可集成于语音识别单元133中。
本文一实施例中,如图4所示,波束形成单元132根据待分析声音信号,生成主副驾音区的端射波束的过程包括:
步骤411,设定阵元所在直线的第一端为第一方向,第二端为第二方向,其中,所述第一方向靠近主驾音区,所述第二方向靠近副驾音区;
步骤412,选择其中一阵元为参考阵元,其它阵元各待分析声音信号按照形成第一方向端射波束的方式进行相位补偿,对相位补偿后的信号进行加权求和得到主驾音区的端射波束;
步骤413,选择其中一阵元为参考阵元,对其它阵元各待分析声音信号按照形成第二方向端射波束的方式进行相位补偿,对相位补偿后的信号进行加权求和得到副驾音区的端射波束1001,如图10A所示。
详细的说,本文所述的第一方向与第二方向相差180°,具体实施时,第一方向例如为0°,第二方向例如为180°,或者第一方向为180°,第二方向为0°。后续实施例如不做特殊说明,均指第一方向为0°,第二方向为180°。
步骤412及步骤413实施时,利用如下公式计算各信号间的噪声比:
当θ为0°时,可实现0°方向的声波抑制,180°具有最大信噪比,即180°方向具有最大信号,通过加权求和声波抑制后的信号能够计算得到副驾音区的端射波束。
当θ为180°,可实现180°方向的声波抑制,0°具有最大信噪比,即0°方向具有最大信号,通过加权求和声波抑制后的信号能够计算得到主驾音区的端射波束。
本文一实施例中,如图5所示,波束形成单元132根据待分析声音信号,生成各音区的常规波束,包括:
步骤511,根据第一方向及第二方向,设定各音区的期望方向;
步骤512,选择其中一阵元为参考阵元,对其它阵元各待分析声音信号进行相位补偿,以使各待分析声音信号相位一致;
步骤513,对于每一音区的期望方向执行如下操作:
步骤5131,在除该音区的期望方向外的其它音区的期望方向上,对各相位补偿后的信号进行声波抑制;
步骤5132,对声波抑制后的信号进行加权求和得到该音区在期望方向上的常规波束1002,如图10B所示,各常规波束之间不存在相互重叠。
步骤511实施时,可根据座位中心与单麦克风阵列上一点的连线与阵元所在直线的之间的夹角,设定各音区的期望方向。
步骤5131实施时,通过各相位补充后信号与参考信号之间的信噪比实现对各音区期望方向上的声波抑制。
步骤5132实施时,可通过如下公式计算各音区在期望方向上的常规波束:
其中,S为常规波束,s0为期望方向上的声波信号,si为其它期望方向上声波抑制后的声波信号,N为阵元个数。
本文一实施例中,如图6所示,语音处理模块130还包括:噪声抑制单元135,连接于所述波束形成单元132及处理单元134,用于对各音区的常规波束进行噪声抑制处理,由处理单元134通过收发模块120发送噪声抑制后的常规波束至车载控制设备200。
详细的说,噪声抑制单元135抑制的噪声包括但不限于风噪、胎噪、风扇噪声等噪声。
本实施例通过对常规波束做进一步噪声抑制,能够降低环境噪声,提高信噪比,提高车载控制设备语音识别的精度。
本文一实施例中,如图7所示,语音处理模块130还包括:语音增强单元136,连接所述噪声抑制单元,用于对噪声抑制后的波束进行语音增强处理,由处理单元134通过所述收发模块发送语音增强后的音区波束至所述车载控制设备。
实施例确定出的音区波束为干净独立的声音,通过识别音区波束,能够确定各音区的命令。
本文一实施例中,如图8所示,语音识别单元133对主副驾音区端射波束及后座音区的常规波束进行语音识别,得到语音识别结果包括:
步骤811,对主副驾音区端射波束及后座音区的常规波束音区波束进行语音端点检测(VAD),确定各音区是否存在语音;
步骤812,对于存在语音的音区,计算该音区的能量;
步骤813,对各音区的能量进行评估,将能量最大的音区设置为有效音区;
步骤814,语音端点检测结果及有效音区构成语音识别结果。
步骤811及步骤812实施时,可参考现有语音端点检测过程及现有波束能量计算过程,本文此处不再详述。
具体实施时,为了节省不必要的计算,步骤811还包括:判断结果中有几个音区有声音,若检测结果为所有音区均无声音,则确定语音识别结果为“所有音区都没有有效语音”,若检测结果为只有一个波束有声音,则判定“该波束的对应音区为有效语音”,若检测结果为有两个及以上波束有声音,则执行步骤812及其之后的步骤。各音区是否存在声音可通过如下配置确定,例如1表示存在声音,0表示无声音。
本文一实施例中,还提供一种车载控制系统,包括前述任一实施例所述的车载多音区拾音设备以及车载控制设备。
为了更清楚说明本文技术方案,下面以一具体实施例进行详细说明。具体的,如图9所示,车载控制系统包括:车载多音区拾音设备100及车载控制设备200,车载多音区拾音设备100及车载控制设备200通过A2B芯片相互通信。
具体的,语音车载控制过程包括:
步骤911,单麦克风阵列采集原始声音信号,即用户发出的声音,发送原始声音信号至语音处理模块。
步骤912,车载娱乐设备300发送参考声音信号至语音处理模块。
步骤913,语音处理模块执行如下处理过程:
(1)利参考声音信号对多个原始声音信号进行回声消除处理,得到待分析声音信号;
(2)根据待分析声音信号,确定车内各音区的常规波束及主副驾音区的端射波束;
(3)对端射波束及后座音区的常规波束进行语音识别,得到语音识别结果;
(4)通过收发模块发送所述常规波束及语音识别结果至车载控制设备。
步骤914,车载控制设备根据常规波束、语音识别结果及用户选择的控制模式,执行控制操作。
具体的,控制模式包括抢占模式及非抢占模式。
当控制模式为抢占模式时,根据语音识别结果中的有效音区识别有效音区对应的常规波束,得到控制内容,根据控制内容发送控制指令至相应控制器,由相应控制器完成控制。例如控制内容为打开车窗,则发送打开控制指令至车窗控制器,由车窗控制器打开车窗。
当控制模式为非抢占模式时,根据语音识别结果中的语音端点检测结果识别有声音音区的常规波束,得到各音区的控制内容,根据各音区控制内容发送控制指令至相应控制器,由相应控制器完成控制。例如左后座音区控制内容为打开车窗,则发送打开左后车窗指令至车窗控制器,由车窗控制器打开左后车窗,右后座音区控制内容为打开空调,则发送打开右后座空调指令至空调控制器,由空调控制器打开右后座空调。
本文提供的车载多音区拾音设备及车载控制系统,通过将车载多音区识别设备设计为包括:单麦克风阵列、收发模块、语音处理模块;利用单麦克风阵列采集得到多个原始声音信号;利用收发模块实现所述车载多音区拾音设备与所述车载控制设备之间的通信;利用语音处理模块接收单麦克风阵列采集的多个原始声音信号;根据多个原始声音信号,确定车内各音区的常规波束及主副驾音区的端射波束;对端射波束及后座音区的常规波束进行语音识别,得到语音识别结果;通过收发模块发送常规波束及语音识别结果至车载控制设备,能够通过单麦克风阵列能够准确地区分各音区人的声音(例如主副驾音区、左后音区及右后音区四个说话者的独立拾音),进而提高复杂环境下的语音交互质量,具有结构简单、布线方便及成本低的优势。
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。
Claims (9)
1.一种车载多音区拾音设备,其特征在于,包括:单麦克风阵列、收发模块、语音处理模块;
所述单麦克风阵列设置于座舱前方,包括多个阵元,用于采集多个原始声音信号;
所述收发模块连接所述语音处理模块及车载控制设备,用于实现所述车载多音区拾音设备与所述车载控制设备之间的通信;
所述语音处理模块连接所述单麦克风阵列,用于接收所述单麦克风阵列采集的多个原始声音信号;根据多个原始声音信号,确定车内各音区的常规波束及主副驾音区的端射波束;对所述端射波束及后座音区的常规波束进行语音识别,得到语音识别结果;通过所述收发模块发送所述常规波束及语音识别结果至所述车载控制设备。
2.如权利要求1所述的车载多音区拾音设备,其特征在于,所述收发模块还连接车载娱乐设备;
所述语音处理模块还用于通过所述收发模块接收所述车载娱乐设备发送的参考声音信号;利用所述参考声音信号对所述多个原始声音信号进行回声消除处理,得到待分析声音信号;
根据多个原始声音信号,确定车内各音区的常规波束及主副驾音区的端射波束进一步为根据所述待分析声音信号,确定车内各音区的常规波束及主副驾音区的端射波束。
3.如权利要求2所述的车载多音区拾音设备,其特征在于,所述语音处理模块包括:依次连接的回声消除单元、波束形成单元、语音识别单元、处理单元;
所述回声消除单元用于利用所述参考声音信号对所述多个原始声音信号进行回声消除处理,得到待分析声音信号;
所述波束形成单元用于根据所述待分析声音信号,生成各音区的常规波束及主副驾音区的端射波束;
所述语音识别单元用于对所述端射波束及后座音区的常规波束进行语音识别,得到语音识别结果;
所述处理单元用于通过所述收发模块发送所述常规波束及语音识别结果至所述车载控制设备。
4.如权利要求3所述的车载多音区拾音设备,其特征在于,所述波束形成单元根据所述待分析声音信号,生成主副驾音区的端射波束,包括:
设定阵元所在直线的第一端为第一方向,第二端为第二方向,其中,所述第一方向指向主驾音区,所述第二方向指向副驾音区;
选择其中一阵元为参考阵元,对其它阵元各待分析声音信号按照形成第一方向端射波束的方式进行相位补偿,对相位补偿后的信号进行加权求和处理得到主驾音区的端射波束;
选择其中一阵元为参考阵元,对其它阵元各待分析声音信号按照形成第二方向端射波束的方式进行相位补偿,对相位补偿后的信号进行加权求和处理得到副驾音区的端射波束。
5.如权利要求4所述的车载多音区拾音设备,其特征在于,所述波束形成单元根据所述待分析声音信号,生成各音区的常规波束,包括:
根据所述第一方向及所述第二方向,设定各音区的期望方向;
选择其中一阵元为参考阵元,对其它阵元各待分析声音信号进行相位补偿,以使各待分析声音信号相位一致;
对于每一音区的期望方向执行如下操作:
在除该音区的期望方向外的其它音区的期望方向上,对各相位补偿后的信号进行声波抑制;根据声波抑制后的信号,得到该音区在期望方向上的常规波束。
6.如权利要求3所述的车载多音区拾音设备,其特征在于,所述语音处理模块还包括:
噪声抑制单元,连接于所述波束形成单元及所述处理单元,用于对各音区的常规波束进行噪声抑制处理,由所述处理单元通过所述收发模块发送噪声抑制后的波束至所述车载控制设备。
7.如权利要求6所述的车载多音区拾音设备,其特征在于,所述语音处理模块还包括:
语音增强单元,连接所述噪声抑制单元及所述处理单元,用于对噪声抑制后的波束进行语音增强处理,由所述处理单元通过所述收发模块发送语音增强后的音区波束至所述车载控制设备。
8.如权利要求3所述的车载多音区拾音设备,其特征在于,所述语音识别单元对所述端射波束及后座音区的常规波束进行语音识别,得到语音识别结果,包括:
对所述端射波束及后座音区的常规波束分别进行语音端点检测,以确定各音区是否存在语音;
对于存在语音的音区,计算该音区的能量;
将能量最大的音区设置为有效音区;
由语音端点检测结果及有效音区构成语音识别结果。
9.一种车载控制系统,其特征在于,包括:车载控制设备及权利要求1至8任一项所述的车载多音区拾音设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210035413.8A CN114401470A (zh) | 2022-01-13 | 2022-01-13 | 一种车载多音区拾音设备及车载控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210035413.8A CN114401470A (zh) | 2022-01-13 | 2022-01-13 | 一种车载多音区拾音设备及车载控制系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114401470A true CN114401470A (zh) | 2022-04-26 |
Family
ID=81230798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210035413.8A Pending CN114401470A (zh) | 2022-01-13 | 2022-01-13 | 一种车载多音区拾音设备及车载控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114401470A (zh) |
-
2022
- 2022-01-13 CN CN202210035413.8A patent/CN114401470A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102625946B (zh) | 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 | |
US8724829B2 (en) | Systems, methods, apparatus, and computer-readable media for coherence detection | |
Wang et al. | Multi-microphone complex spectral mapping for speech dereverberation | |
EP2058803B1 (en) | Partial speech reconstruction | |
US6889189B2 (en) | Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations | |
EP1923866B1 (en) | Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program | |
JP5913340B2 (ja) | マルチビーム音響システム | |
JP4839924B2 (ja) | 車載用電子機器、車内空間の音場最適化補正方法及び車内空間の音場最適化補正システム | |
CN105635501A (zh) | 用于回声消除的系统和方法 | |
CN110459234A (zh) | 用于车载的语音识别方法及系统 | |
EP3163573A1 (en) | Speech collector in car cabin | |
GB2398913A (en) | Noise estimation in speech recognition | |
Kolossa et al. | Nonlinear postprocessing for blind speech separation | |
JP7186375B2 (ja) | 音声処理装置、音声処理方法および音声処理システム | |
US9830925B2 (en) | Selective noise suppression during automatic speech recognition | |
CN110767215A (zh) | 一种训练语音识别模型、识别语音的方法及装置 | |
WO2017056706A1 (ja) | 車載音響装置 | |
CN114267343A (zh) | 一种车载声源定位方法、装置、设备、介质及产品 | |
US9747922B2 (en) | Sound signal processing method, and sound signal processing apparatus and vehicle equipped with the apparatus | |
CN109215648A (zh) | 车载语音识别系统及方法 | |
Fukui et al. | Sound source separation for plural passenger speech recognition in smart mobility system | |
CN111599366A (zh) | 一种车载多音区语音处理的方法和相关装置 | |
CN114401470A (zh) | 一种车载多音区拾音设备及车载控制系统 | |
CN114885273A (zh) | 音区调整方法及相关装置、设备、系统和介质 | |
Saruwatari et al. | Speech enhancement and recognition in car environment using blind source separation and subband elimination processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |