CN114765030A - 车辆中的言语滤波 - Google Patents
车辆中的言语滤波 Download PDFInfo
- Publication number
- CN114765030A CN114765030A CN202210022813.5A CN202210022813A CN114765030A CN 114765030 A CN114765030 A CN 114765030A CN 202210022813 A CN202210022813 A CN 202210022813A CN 114765030 A CN114765030 A CN 114765030A
- Authority
- CN
- China
- Prior art keywords
- filter
- speech
- occupant
- filtered
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title abstract description 9
- 238000000034 method Methods 0.000 claims description 54
- 230000004044 response Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 description 28
- 238000001228 spectrum Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000007620 mathematical function Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- B60K35/10—
-
- B60K35/29—
-
- B60K35/85—
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- B60K2360/148—
-
- B60K2360/199—
-
- B60K2360/595—
-
- B60K35/60—
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
Abstract
本公开提供了“车辆中的言语滤波”。一种计算机包括处理器和存储器,所述存储器存储可由所述处理器执行以进行以下操作的指令:识别车辆的乘客舱中的乘员;检测所述乘员的头部相对于所述乘客舱的位置;基于所述头部的所述位置将第一滤波器应用于来自所述乘员的言语;生成第二滤波器;将所述第二滤波器应用于所述言语;基于经所述第二滤波器滤波的所述乘员的所述言语与所述乘员的预存储简档之间的差异来调整所述第二滤波器;以及使用经所述第一滤波器和所述第二滤波器滤波的所述言语来执行操作。
Description
技术领域
本公开总体上涉及车辆语音识别系统。
背景技术
许多现代车辆包括语音识别系统。这种系统包括传声器。所述系统将由传声器检测到的口语词转换为文本或可匹配命令的另一种形式。所识别的命令可包括调整气候控制、选择要播放的媒体等。
发明内容
一种计算机包括处理器和存储器,所述存储器存储可由所述处理器执行以进行以下操作的指令:识别车辆的乘客舱中的乘员;检测所述乘员的头部相对于所述乘客舱的位置;基于所述头部的所述位置将第一滤波器应用于来自所述乘员的言语;生成第二滤波器;将所述第二滤波器应用于所述言语;基于经所述第二滤波器滤波的所述乘员的所述言语与所述乘员的预存储简档之间的差异来调整所述第二滤波器;以及使用经所述第一滤波器和所述第二滤波器滤波的所述言语来执行操作。
所述指令可包括用于在所述车辆的单次行程期间重复进行以下操作的指令:检测所述乘员的所述言语;然后将第二滤波器应用于所述言语;以及然后基于经所述第二滤波器滤波的所述言语与所述预存储简档之间的所述差异来调整所述第二滤波器。
所述第二滤波器在生成时可为直通滤波器。
生成所述第二滤波器可响应于所述言语与所述预存储简档相差至少非零阈值而发生。所述指令可包括用于响应于所述言语与所述预存储简档相差小于所述非零阈值,使用经所述第一滤波器滤波的所述言语来执行所述操作的指令。
所述预存储简档可包括相应多个频率处的多个声级,并且当所述预存储简档中的所述声级中的至少一个与所述言语在相同频率处的声级相差至少非零声级阈值时,所述言语可与所述预存储简档相差至少所述非零阈值。
所述用于应用所述第一滤波器的指令可包括用于根据所述头部的所述位置从存储在存储器中的多个滤波器中选择所述第一滤波器的指令。
所述指令可包括用于基于所述乘员的言语的记录来生成所述预存储简档的指令。所述指令可包括用于进行以下操作的指令:向所述乘员提供说出预存储文本的提示;以及在所述乘员说出所述预存储文本时进行所述言语的所述记录。
所述用于将所述第二滤波器应用于所述言语的指令可包括用于将所述第二滤波器应用于经所述第一滤波器滤波的所述言语的指令。
所述第二滤波器可将所述言语的声级调整根据频率变化的量。
所述第一滤波器可将所述言语的声级调整根据频率变化的量。
所述操作可以是识别语音命令以激活特征。
所述操作可以是在电话呼叫中传输经所述第一滤波器和所述第二滤波器滤波的所述言语。
所述操作可以是由所述车辆的扬声器输出经所述第一滤波器和所述第二滤波器滤波的所述言语。
一种方法包括:识别车辆的乘客舱中的乘员;检测所述乘员的头部相对于所述乘客舱的位置;基于所述头部的所述位置将第一滤波器应用于来自所述乘员的言语;生成第二滤波器;将所述第二滤波器应用于所述言语;基于经所述第二滤波器滤波的所述乘员的所述言语与所述乘员的预存储简档之间的差异来调整所述第二滤波器;以及使用经所述第一滤波器和所述第二滤波器滤波的所述言语来执行操作。
所述方法还可包括在所述车辆的单次行程期间重复进行以下操作:检测所述乘员的所述言语;然后将第二滤波器应用于所述言语;以及然后基于经所述第二滤波器滤波的所述言语与所述预存储简档之间的所述差异来调整所述第二滤波器。
所述第二滤波器在生成时可为直通滤波器。
生成所述第二滤波器可响应于所述言语与所述预存储简档相差至少非零阈值而发生。
应用所述第一滤波器可包括根据所述头部的所述位置从存储在存储器中的多个滤波器中选择所述第一滤波器。
附图说明
图1是示例性车辆的俯视图,其中为了进行说明而暴露出了乘客舱。
图2是车辆的系统的框图。
图3是在各种状况下言语的声压与频率的曲线图。
图4是用于生成车辆的乘员的言语简档的示例性过程的流程图。
图5是用于对乘员的言语进行滤波的示例性过程的过程流程图。
图6是用于调整用于对乘员的言语进行滤波的第二滤波器的反馈回路的信息流程图。
具体实施方式
参考附图,计算机102包括处理器和存储器,所述存储器存储可由所述处理器执行以进行以下操作的指令:识别车辆100的乘客舱106中的乘员;检测乘员的头部相对于乘客舱106的位置;基于头部的位置将第一滤波器应用于来自乘员的言语;生成第二滤波器;将第二滤波器应用于言语;基于经第二滤波器滤波的乘员的言语与乘员的预存储简档104之间的差异来调整第二滤波器;以及使用经第一滤波器和第二滤波器滤波的言语来执行操作。
计算机102可用于提高来自正在经历改变其语音的状况(例如,乘员生病、佩戴着口罩等)的乘员的言语清晰度。第一滤波器的选择可补偿乘员位置对乘员声音的一些影响,因为这些影响在乘员之间是恒定的。可调整第二滤波器以补偿乘员的特定状况。因此,经滤波的声音数据可以可靠地用于各种车内操作,诸如提供语音命令以激活车辆100的特征,或者提供要在电话呼叫中传输的言语,或者向位于车辆100中其他地方的扬声器108(即,向车内对讲系统)提供言语。语音命令可被可靠地识别,电话呼叫可被另一端的人从乘员那里可靠地理解,并且对讲消息可被车辆100的其他乘员可靠地理解。此外,预存储简档104可在多个车辆上使用,而无需为每个车辆重新创建预存储简档104。
参考图1,车辆100可为任何合适类型的汽车,例如乘用车或商用车,诸如四门轿车、双门小轿车、卡车、运动型多用途车、跨界车、厢式货车、小型货车、出租车、公共汽车等。例如,车辆100可为自主车辆。换句话说,车辆100可自主地操作,使得车辆100可在无须驾驶员持续注意的情况下驾驶,即车辆100可在没有人工输入的情况下自动-驾驶。
车辆100包括用于容纳车辆100的乘员的乘客舱106。乘客舱106包括座椅110,所述座椅包括设置在乘客舱106的前部的一个或多个前排座椅110以及设置在前排座椅110后面的一个或多个后排座椅110。乘客舱106还可包括位于乘客舱106后部的第三排座椅110(未示出)。
车辆100包括至少一个相机112。相机112可检测在某个波长范围的电磁辐射。例如,相机112可检测可见光、红外辐射、紫外光或包括可见光、红外光和/或紫外光的某个范围的波长。例如,相机112可为热成像相机。
相机112被定位成使得相机112的视野涵盖座椅110中的至少一者,例如,驾驶员座椅110或者前排座椅和后排座椅110。例如,相机112可定位在仪表板114或后视镜上并且相对于乘客舱106向后取向。
车辆100包括至少一个传声器116,例如第一传声器116a和第二传声器116b。传声器116是将声音转换成电信号的换能器。传声器116可以是用于检测车辆100的乘员的言语的任何合适类型的传声器116,例如动圈式传声器、电容式传声器、接触式传声器等。
传声器116可布置在乘客舱106中的相应地点或位置处,以共同检测来自不同座椅110中的乘员的言语。例如,第一传声器116a可定位在仪表板114中,并且第二传声器116b可定位在前排座椅110之间并且被取向成拾取来自后排座椅110的声音。
用户界面118向车辆100的乘员呈现信息并且从乘员接收信息。用户界面118可位于例如乘客舱106中的仪表板114上,或者位于乘员容易看到的任何地方。用户界面118可包括用于向乘员提供信息的刻度盘、数字读出装置、屏幕、扬声器108等,例如,诸如已知的人机接口(HMI)元件。用户界面118可包括用于从乘员接收信息的按钮、旋钮、小键盘、传声器116等。
扬声器108是将电信号转换成声音的电声换能器。扬声器108可以是用于产生乘员可听到的声音的任何合适的类型,例如动圈式扬声器。扬声器108可布置在乘客舱106中的相应地点或位置处,以共同为相应座椅110中的乘员产生声音。
参考图2,计算机102是基于微处理器的计算装置,例如,通用计算装置(包括处理器和存储器、电子控制器等)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等。因此,计算机102可包括处理器、存储器等。计算机102的存储器可以包括用于存储可由处理器执行的指令以及用于电子存储数据和/或数据库的介质,和/或计算机102可包括诸如提供编程的前述结构的结构。计算机102可以是耦合在一起的多个计算机。
计算机102可通过通信网络120(诸如控制器局域网(CAN)总线、以太网、局域互连网(LIN)、车载诊断连接器(OBD-II))和/或通过任何其他有线或无线通信网络传输和接收数据。计算机102可经由通信网络120通信地耦合到相机112、传声器116、用户界面118、扬声器108和其他部件。
参考图3,计算机102存储已经执行下面关于过程400所描述的注册过程的每个乘员的预存储简档104。预存储简档104可包括相应的多个频率处的多个声级,在图3中表示为以频率为水平轴线并且以声级为竖直轴线绘制的曲线(以实线示出)。频率以每单位时间的周期(例如,Hz)为单位进行测量,并且声级以分贝(dB)或A加权分贝(dBA)为单位进行测量。预存储简档104表示当乘员说话时的相应频率的典型声级,即当乘员的语音不受任何状况影响时的相应频率的声级。相应的频率可被组织成倍频带,即其中每个频带的最高频率是该频带的最低频率的两倍的频带。
不同的状况可能导致乘员的语音偏离预存储简档104。状况的示例包括乘员生病(例如,感冒)时;乘员佩戴着口罩时;等。例如,图3中以虚线绘制了偏差曲线122,所述偏差曲线表示当乘员佩戴着口罩时针对相应频率的乘员语音的声级。当频率为500Hz或更低时,口罩对音量的影响通常较小,而在1000Hz或更高的频率下,口罩的消音效果会更明显,这取决于口罩的类型。
图4是示出用于生成乘员的预存储简档104的示例性过程400的过程流程图;这被称为乘员注册。计算机102的存储器存储用于执行过程400的步骤的可执行指令和/或可以诸如上述的结构来实施编程。作为过程400的总体概述,计算机102使用数据来识别乘员,并且如果乘员想要生成预存储简档104,则计算机102提示乘员说出预存储文本,在乘员说出预存储文本时进行言语的记录,并且基于所述记录生成预存储简档104。
过程400在框405中开始,其中计算机102接收车辆100的乘员的数据,例如来自相机112的示出乘员的图像数据,或来自用户界面118的识别数据。
接下来,在框410中,计算机102识别乘员。例如,乘员可使用钥匙扣来起动车辆100,并且钥匙扣具有从经常使用车辆100的其他潜在乘员中唯一地指定乘员的RFID标签等。RFID信号可与存储器中的乘员相关联。又例如,乘员的移动电话或装置可与例如车辆100的用户界面118配对。移动电话或装置可与存储器中的乘员相关联。又例如,计算机102可使用来自具有包括乘员的面部的视野的相机112的数据,并且可使用已知的图像识别技术来识别乘员。又例如,乘员可将识别信息(诸如用户名和密码)输入到用户界面中。
接下来,在判定框415中,计算机102确定乘员是否已从用户界面118选择了生成预存储简档104(即,开始注册)的命令。如果否,则过程400结束。如果是,则过程400前进至框420。
在框420中,计算机102经由用户界面118向乘员提供说出预存储文本的提示。例如,用户界面118可显示预存储文本以及大声说出预存储文本的指令。预存储文本可以是一个或多个句子或短语,所述一个或多个句子或短语被选择为共同包括全频率范围,因此允许如图3所示创建预存储简档104。
接下来,在框425中,计算机102在乘员说出预存储文本时进行语言的记录,例如,存储从传声器116返回的数据达足够长的持续时间,以便乘员说出(即,大声说出)预存储文本。
接下来,在框425中,计算机102基于乘员说出预存储文本的言语记录来生成预存储简档104。例如,计算机102可将来自记录的频率的声级(也称为声压)绘制为曲线,即数学函数P=F(f),即声压P作为频率f的函数。又例如,计算机102可将频率的声级存储为向量P=<p1,p2,...pn>,其中每个条目pi为特定频率处的声级,例如125Hz处的声级p1、250Hz处的声级p2等等,一直到8000Hz处的声级p7。在框425之后,过程400结束。
图5是用于对乘员的言语进行滤波的示例性过程500的过程流程图。计算机102的存储器存储用于执行过程500的步骤的可执行指令和/或可以诸如上述的结构来实施编程。作为过程500的总体概述,计算机102使用数据来识别乘员,检测乘员的头部相对于乘客舱106的位置,并且基于头部的位置来将第一滤波器应用于来自乘员的言语。如果言语与预存储简档104未相差至少非零阈值,则计算机102使用经第一滤波器而不是第二滤波器滤波的言语来执行操作。如果言语与预存储简档104相差至少非零阈值,则计算机102生成第二滤波器。然后,只要车辆100保持开启,计算机102就重复地应用第二滤波器,基于与预存储简档104的差异来调整第二滤波器,并且使用经第一滤波器和第二滤波器滤波的言语来执行操作。
过程500在框505中开始,其中计算机102接收车辆100的乘员的数据,例如来自相机112的示出乘员的图像数据,或来自用户界面118的识别数据。
接下来,在框510中,计算机102识别乘员,如上文关于过程400的框410所述。
接下来,在框515中,计算机102检测乘员的头部相对于乘客舱106的位置以及可能的取向。首先,计算机102可例如通过使用任何合适的面部检测技术来在来自相机112的图像数据中检测头部,所述面部检测技术例如:基于知识的技术,诸如基于多分辨率规则的方法;特征不变技术,诸如边缘分组、空间灰度相关矩阵或高斯混合;模板匹配技术,诸如形状模板或主动形状模型;或基于外观的技术,诸如本征脸分解和聚类、高斯分布和多层感知器、神经网络、具有多项式核的支持向量机、具有局部外观和位置联合统计的朴素贝叶斯分类器、具有隐马尔可夫模型的高阶统计或Kullback相关信息。所述面部检测技术的输出可包括乘员头部的取向。其次,在检测到头部的情况下,计算机102可例如通过使用图像数据的帧中的像素尺寸(对于来自相机112的方向)和例如像素宽度大小(对于与相机112的距离)来确定位置。
接下来,在框520中,计算机102根据头部的位置以及可能还有头部的取向来从存储在存储器中的多个所存储的滤波器中选择第一滤波器,并且计算机102将所选择的第一滤波器应用于如由传声器116检测到的来自乘员的言语。当乘员的头部处于乘客舱106周围的不同的位置和可能的取向时,通过实验测试声音失真来确定所存储的滤波器,和/或可使用声音的计算机辅助工程模型来确定所存储的滤波器,其中乘员的头部在乘客舱106的模型中处于不同的位置和可能的取向。所存储的滤波器将言语的声级调整根据频率变化的量。所存储的每个滤波器指定根据频率调整声音数据的声压(即,音量)的程度,例如,所存储的每个滤波器提供声压作为频率的数学函数,SP1=F(f),其中SP1为声压,F为所存储的滤波器的函数,并且f为频率。函数F可以是连续的,也可以是分段连续的,并且可通过拟合实验数据来生成函数F。替代地,所存储的每个滤波器可表示为向量SP1=<sp1,sp2,...spn>,其中每个条目spi为特定频率处的声级,例如125Hz处的声级sp1、250Hz处的声级sp2等等,一直到8000Hz处的声级sp7。例如,所存储的滤波器可包括:对应于当乘员在驾驶员座椅110中且驾驶员座椅110处于相对靠近仪表板114的位置并且乘员的头部相对较低时所存储的滤波器;对应于当乘员在驾驶员座椅110中且驾驶员座椅110处于相对远离仪表板114的位置并且乘员的头部相对较高时所存储的滤波器;和对应于当乘员在前排乘客座椅110中时所存储的滤波器。所存储的滤波器还可包括对应于乘员的头部的更细粒度的位置的更多数量的所存储的滤波器。例如,对于乘员的头部相对于传声器116的不同角度,所存储的滤波器可包括不同的滤波器。从多个所存储的滤波器中进行选择可提供第一滤波器,所述第一滤波器最准确地调整言语以补偿与乘客舱106的已知失真。
接下来,在判定框525中,计算机102确定来自乘员的言语是否与预存储简档104相差至少非零阈值。计算机102确定由传声器116检测到的言语(具体地,在框520中经第一滤波器滤波之后的言语)的多个频率的声级。当预存储简档104中的声级中的至少一个与言语在相同频率处的声级相差至少非零声级阈值时,言语可与预存储简档104相差至少非零阈值。非零声级阈值以与预存储简档104的声级相同的单位进行测量,并且非零声级阈值可通过实验进行选择以将由状况引起的差异与由声级的随机波动引起的差异区分开。响应于言语与预存储简档104相差至少非零阈值,过程500前进至框535。响应于言语与预存储简档104相差小于非零阈值,过程500前进至框530。
在框530中,计算机102使用经第一滤波器而不是第二滤波器滤波的声音数据来执行操作。例如,所述操作可以是识别语音命令以激活特征,例如,将声音数据转换为诸如“呼叫比萨饼店”、“播放播客”、“降低温度”等文本(或转换为识别命令诸如所述命令的代码的等效数据)。使用经第一滤波器滤波的声音数据可帮助计算机102准确地识别语音命令。又例如,所述操作可以是在电话呼叫中传输声音数据。移动电话可与用户界面118配对并用于拨打电话。使用经第一滤波器滤波的声音数据可提高呼叫接收者对乘员所说的话的理解。又例如,所述操作可以是由扬声器108中的一个或多个输出经滤波的声音数据。源自第一传声器116a的声音数据可由乘客舱106后部的扬声器108使用和输出;换句话说,第一传声器116a和扬声器108形成车内对讲机。与直接听到乘员在所述状况下说话相比,使用经第一滤波器滤波的声音数据可使后排座椅110中的乘员更容易理解前排座椅110中的乘员在说的话。在框530之后,过程500结束。
在框535中,计算机102生成第二滤波器。第二滤波器将言语的声级调整根据频率变化的量。第二滤波器SP2可以与第一滤波器相同的形式在数学上表示,如上文关于框520所述。所述第二滤波器在生成时可为直通滤波器;即,在经第二滤波器滤波之前和之后,每个频率处的声级是相同的。当下文在框545中调整第二滤波器时,第二滤波器不再是直通滤波器。替代地,对于所识别的乘员,当生成第二滤波器时,所述第二滤波器可基于来自过程500的先前执行的数据。
接下来,在框540中,计算机102将第二滤波器应用于如由传声器116检测到的来自乘员的言语,例如应用于在框520中经第一滤波器滤波之后的言语。
接下来,在框545中,计算机102基于经第二滤波器滤波的乘员的言语与乘员的预存储简档104之间的差异来调整第二滤波器。当计算机102重复地执行框540和545时,计算机102创建反馈回路600,所述反馈回路在下文关于图6更详细地描述。因此,在该框545中对第二滤波器的调整可以是下文关于反馈回路600中的框630所描述的调整。
接下来,在框550中,计算机102使用经第一滤波器和第二滤波器两者滤波的声音数据来执行操作。例如,所述操作可以是识别语音命令以激活特征,例如,将声音数据转换为诸如“呼叫比萨饼店”、“播放播客”、“降低温度”等文本(或转换为识别命令的等效数据)。使用经第一滤波器和第二滤波器滤波的声音数据可帮助计算机102准确地识别语音命令。又例如,所述操作可以是在电话呼叫中传输声音数据。移动电话可与用户界面118配对并用于拨打电话。使用经第一滤波器和第二滤波器滤波的声音数据可使呼叫接收者容易理解乘员在说的话。又例如,所述操作可以是由扬声器108中的一个或多个输出经滤波的声音数据。源自第一传声器116a的声音数据可由乘客舱106后部的扬声器108使用和输出;换句话说,第一传声器116a和扬声器108形成电信。与直接听到乘员在所述状况下说话相比,使用经第一滤波器和第二滤波器滤波的声音数据可使后排座椅110中的乘员更容易理解前排座椅110中的乘员在说的话。
接下来,在判定框555中,计算机102确定车辆100是否仍然开启。如果车辆100仍然开启,则过程500返回到框540,因此在车辆100的单次行程期间重复执行框540、545和550,从而创建下文关于图6所描述的反馈回路600。如果车辆100已经关闭,则过程500结束。
图6是示出用于调整第二滤波器的反馈回路600的信息流程图。计算机102的存储器存储用于执行反馈回路600的可执行指令和/或可以诸如上述的结构来实施编程。作为反馈回路600的总体概述,计算机102将第二滤波器应用于经第一滤波器滤波的言语,所述第一滤波器用于执行操作并生成频谱,即经第一滤波器和第二滤波器滤波的言语在不同频率处的声级。计算机102确定预存储简档104与频谱之间的“误差”(即,差异)。计算机102使用所述误差来调整第二滤波器,然后再次应用第二滤波器来完成反馈回路600。
在框610中,计算机102将第二滤波器应用于经第一滤波器滤波的言语,如上文关于框540所述。经第一滤波器滤波的言语由流入框610中的信息框605表示。第二滤波器可以是用于反馈回路600的第一次迭代的直通滤波器,并且此后从框630接收第二滤波器。经第一滤波器和第二滤波器滤波的言语流向框615(其中计算机102执行如上文关于框550所描述的操作),并流向框620。
在框620中,计算机102使用经第一滤波器和第二滤波器滤波的言语来生成频谱。所述频谱表示经第一滤波器和第二滤波器滤波的言语的声级如何随频率变化。所述频谱可以与第二滤波器相同的形式在数学上表示。所述频谱可表示为声级作为频率的数学函数S=F(f),其中S为声级,F为数学函数,并且f为频率。替代地,所述频谱可表示为向量S=<s1,s2,...sn>,其中每个条目si为特定频率处的声级,例如125Hz处的声级s1、250Hz处的声级s2等等,一直到8000Hz处的声级s7。
所述误差是预存储简档104(示出为信息框625)与从框620流出的频谱之间的差异,即E=P–S,其中P为预存储简档104,并且S为频谱。如果预存储简档104和频谱表示为数学函数P=F1(f)和S=F2(f),则误差为函数E=F1(f)–F2(f)。如果预存储简档104和频谱表示为向量P=<p1,p2,...pn>和S=<s1,s2,...sn>,则误差为向量E=<p1,p2,...pn>–<s1,s2,...sn>=<p1–s1,p2–s2,...pn–sn>。误差E流入框630中。
在框630中,计算机102基于误差,即基于经第二滤波器滤波的乘员的言语与乘员的预存储简档104之间的差异来调整第二滤波器。对于每个频率,第二滤波器中的先前补偿通过该频率处的误差发生改变;例如,如果第二滤波器在2000Hz处将声级增加8dBA并且误差为2dBA,则调整第二滤波器以替代地在2000Hz处将声级增加10dBA。经调整的第二滤波器从框630流向框610以完成反馈回路600。
计算机可执行指令可由使用各种编程语言和/或技术创建的计算机程序来编译或解译,所述编程语言和/或技术单独地或组合地包括但不限于JavaTM、C、C++、VisualBasic、Java Script、Perl、HTML等。通常,处理器(例如,微处理器)例如从存储器、计算机可读介质等接收指令,并且执行这些指令,由此执行一个或多个过程,其包括本文所述的过程中的一者或多者。此类指令和其他数据可使用各种计算机可读介质来存储和传输。联网装置中的文件通常是存储在计算机可读介质(诸如存储介质、随机存取存储器等)上的数据的集合。计算机可读介质包括参与提供可以由计算机读取的数据(例如,指令)的任何介质。这种介质可采用许多形式,包括但不限于非易失性介质、易失性介质等。非易失性介质包括例如光盘或磁盘和其他持久性存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。计算机可读介质的常见形式包括例如软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD ROM、DVD、任何其他光学介质、穿孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、快闪EEPROM、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。
已经以说明性方式描述了本公开,并且应当理解,已经使用的术语意图具有描述性词语而非限制性词语的性质。形容词“第一”和“第二”贯穿本文档用作标识符,并且不意图表示重要性、顺序或数量。“响应于”和“在确定……时”的使用指示因果关系,而不仅是时间关系。鉴于以上教导,本公开的许多修改和变化是可能的,并且本公开可以不同于具体描述的其他方式来实践。
根据本发明,提供了一种计算机,所述计算机具有处理器和存储器,所述存储器存储可由所述处理器执行以进行以下操作的指令:识别车辆的乘客舱中的乘员;检测所述乘员的头部相对于所述乘客舱的位置;基于所述头部的所述位置将第一滤波器应用于来自所述乘员的言语;生成第二滤波器;将所述第二滤波器应用于所述言语;基于经所述第二滤波器滤波的所述乘员的所述言语与所述乘员的预存储简档之间的差异来调整所述第二滤波器;以及使用经所述第一滤波器和所述第二滤波器滤波的所述言语来执行操作。
根据一个实施例,所述指令包括用于在所述车辆的单次行程期间重复进行以下操作的指令:检测所述乘员的所述言语;然后将第二滤波器应用于所述言语;以及然后基于经所述第二滤波器滤波的所述言语与所述预存储简档之间的所述差异来调整所述第二滤波器。
根据一个实施例,所述第二滤波器在生成时为直通滤波器。
根据一个实施例,生成所述第二滤波器响应于所述言语与所述预存储简档相差至少非零阈值而发生。
根据一个实施例,所述指令包括用于响应于所述言语与所述预存储简档相差小于所述非零阈值,使用经所述第一滤波器滤波的所述言语来执行所述操作的指令。
根据一个实施例,所述预存储简档包括相应多个频率处的多个声级,并且当所述预存储简档中的所述声级中的至少一个与所述言语在相同频率处的声级相差至少非零声级阈值时,所述言语与所述预存储简档相差至少所述非零阈值。
根据一个实施例,所述用于应用所述第一滤波器的指令包括用于根据所述头部的所述位置从存储在存储器中的多个滤波器中选择所述第一滤波器的指令。
根据一个实施例,所述指令包括用于基于所述乘员的言语的记录来生成所述预存储简档的指令。
根据一个实施例,所述指令包括用于进行以下操作的指令:向所述乘员提供说出预存储文本的提示;以及在所述乘员说出所述预存储文本时进行所述言语的所述记录。
根据一个实施例,所述用于将所述第二滤波器应用于所述言语的指令包括用于将所述第二滤波器应用于经所述第一滤波器滤波的所述言语的指令。
根据一个实施例,所述第二滤波器将所述言语的声级调整根据频率变化的量。
根据一个实施例,所述第一滤波器将所述言语的声级调整根据频率变化的量。
根据一个实施例,所述操作是识别语音命令以激活特征。
根据一个实施例,所述操作是在电话呼叫中传输经所述第一滤波器和所述第二滤波器滤波的所述言语。
根据一个实施例,所述操作是由所述车辆的扬声器输出经所述第一滤波器和所述第二滤波器滤波的所述言语。
根据本发明,一种方法包括:识别车辆的乘客舱中的乘员;检测所述乘员的头部相对于所述乘客舱的位置;基于所述头部的所述位置将第一滤波器应用于来自所述乘员的言语;生成第二滤波器;将所述第二滤波器应用于所述言语;基于经所述第二滤波器滤波的所述乘员的所述言语与所述乘员的预存储简档之间的差异来调整所述第二滤波器;以及使用经所述第一滤波器和所述第二滤波器滤波的所述言语来执行操作。
在本发明的一个方面,所述方法包括在所述车辆的单次行程期间重复进行以下操作:检测所述乘员的所述言语;然后将第二滤波器应用于所述言语;以及然后基于经所述第二滤波器滤波的所述言语与所述预存储简档之间的所述差异来调整所述第二滤波器。
在本发明的一个方面,所述第二滤波器在生成时为直通滤波器。
在本发明的一个方面,生成所述第二滤波器响应于所述言语与所述预存储简档相差至少非零阈值而发生。
在本发明的一方面,应用所述第一滤波器包括根据所述头部的所述位置从存储在存储器中的多个滤波器中选择所述第一滤波器。
Claims (15)
1.一种方法,其包括:
识别车辆的乘客舱中的乘员;
检测所述乘员的头部相对于所述乘客舱的位置;
基于所述头部的所述位置将第一滤波器应用于来自所述乘员的言语;
生成第二滤波器;
将所述第二滤波器应用于所述言语;
基于经所述第二滤波器滤波的所述乘员的所述言语与所述乘员的预存储简档之间的差异来调整所述第二滤波器;以及
使用经所述第一滤波器和所述第二滤波器滤波的所述言语来执行操作。
2.如权利要求1所述的方法,其还包括在所述车辆的单次行程期间重复进行以下操作:检测所述乘员的所述言语;然后将所述第二滤波器应用于所述言语;以及然后基于经所述第二滤波器滤波的所述言语与所述预存储简档之间的所述差异来调整所述第二滤波器。
3.如权利要求1所述的方法,其中所述第二滤波器在生成时为直通滤波器。
4.如权利要求1所述的方法,其中生成所述第二滤波器响应于所述言语与所述预存储简档相差至少非零阈值而发生。
5.如权利要求4所述的方法,其还包括响应于所述言语与所述预存储简档相差小于所述非零阈值,使用经所述第一滤波器滤波的所述言语来执行所述操作。
6.如权利要求4所述的方法,其中所述预存储简档包括相应多个频率处的多个声级,并且当所述预存储简档中的所述声级中的至少一个与所述言语在相同频率处的声级相差至少非零声级阈值时,所述言语与所述预存储简档相差至少所述非零阈值。
7.如权利要求1所述的方法,其中应用所述第一滤波器包括根据所述头部的所述位置从存储在存储器中的多个滤波器中选择所述第一滤波器。
8.如权利要求1所述的方法,其还包括向所述乘员提供说出预存储文本的提示、在所述乘员说出所述预存储文本时进行言语的记录以及基于对于所述乘员的所述言语的所述记录来生成所述预存储简档。
9.如权利要求1所述的方法,其中将所述第二滤波器应用于所述言语包括将所述第二滤波器应用于经所述第一滤波器滤波的所述言语。
10.如权利要求1所述的方法,其中所述第二滤波器将所述言语的声级调整根据频率变化的量。
11.如权利要求1所述的方法,其中所述第一滤波器将所述言语的声级调整根据频率变化的量。
12.如权利要求1所述的方法,其中所述操作是识别语音命令以激活特征。
13.如权利要求1所述的方法,其中所述操作是在电话呼叫中传输经所述第一滤波器和所述第二滤波器滤波的所述言语。
14.如权利要求1所述的方法,其中所述操作是由所述车辆的扬声器输出经所述第一滤波器和所述第二滤波器滤波的所述言语。
15.一种计算机,其包括处理器和存储指令的存储器,所述指令能够由所述处理器执行以执行如权利要求1至14中的一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/145,437 US11355136B1 (en) | 2021-01-11 | 2021-01-11 | Speech filtering in a vehicle |
US17/145,437 | 2021-01-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114765030A true CN114765030A (zh) | 2022-07-19 |
Family
ID=81852371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210022813.5A Pending CN114765030A (zh) | 2021-01-11 | 2022-01-10 | 车辆中的言语滤波 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11355136B1 (zh) |
CN (1) | CN114765030A (zh) |
DE (1) | DE102022100428A1 (zh) |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090055180A1 (en) * | 2007-08-23 | 2009-02-26 | Coon Bradley S | System and method for optimizing speech recognition in a vehicle |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
US8438030B2 (en) * | 2009-11-25 | 2013-05-07 | General Motors Llc | Automated distortion classification |
US9934780B2 (en) * | 2012-01-17 | 2018-04-03 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch |
US9431013B2 (en) * | 2013-11-07 | 2016-08-30 | Continental Automotive Systems, Inc. | Co-talker nulling for automatic speech recognition systems |
US9516414B2 (en) | 2014-07-09 | 2016-12-06 | Blackberry Limited | Communication device and method for adapting to audio accessories |
US20160012827A1 (en) * | 2014-07-10 | 2016-01-14 | Cambridge Silicon Radio Limited | Smart speakerphone |
US9800983B2 (en) * | 2014-07-24 | 2017-10-24 | Magna Electronics Inc. | Vehicle in cabin sound processing system |
US20160039356A1 (en) * | 2014-08-08 | 2016-02-11 | General Motors Llc | Establishing microphone zones in a vehicle |
KR102276538B1 (ko) | 2014-09-15 | 2021-07-13 | 현대모비스 주식회사 | 차량용 핸즈프리 장치의 제어 방법 및 제어 장치 |
US20170323644A1 (en) * | 2014-12-11 | 2017-11-09 | Nec Corporation | Speaker identification device and method for registering features of registered speech for identifying speaker |
US9704509B2 (en) * | 2015-07-29 | 2017-07-11 | Harman International Industries, Inc. | Active noise cancellation apparatus and method for improving voice recognition performance |
EP3171613A1 (en) * | 2015-11-20 | 2017-05-24 | Harman Becker Automotive Systems GmbH | Audio enhancement |
CN107465986A (zh) * | 2016-06-03 | 2017-12-12 | 法拉第未来公司 | 使用多个麦克风检测和隔离车辆中的音频的方法和装置 |
DE102017213241A1 (de) * | 2017-08-01 | 2019-02-07 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren, Vorrichtung, mobiles Anwendergerät, Computerprogramm zur Steuerung eines Audiosystems eines Fahrzeugs |
US10811030B2 (en) * | 2017-09-12 | 2020-10-20 | Board Of Trustees Of Michigan State University | System and apparatus for real-time speech enhancement in noisy environments |
US10580430B2 (en) * | 2017-10-19 | 2020-03-03 | Bose Corporation | Noise reduction using machine learning |
US10956546B2 (en) * | 2018-06-05 | 2021-03-23 | Cirrus Logic, Inc. | Methods, apparatus and computer-readable mediums related to biometric authentication |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
US11048472B2 (en) * | 2019-01-27 | 2021-06-29 | Listen AS | Dynamically adjustable sound parameters |
US10854202B2 (en) | 2019-04-08 | 2020-12-01 | Alpine Electronics of Silicon Valley, Inc. | Dynamic microphone system for autonomous vehicles |
-
2021
- 2021-01-11 US US17/145,437 patent/US11355136B1/en active Active
-
2022
- 2022-01-10 DE DE102022100428.7A patent/DE102022100428A1/de active Pending
- 2022-01-10 CN CN202210022813.5A patent/CN114765030A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
DE102022100428A1 (de) | 2022-07-14 |
US11355136B1 (en) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683673B (zh) | 驾驶模式的调整方法、装置和系统、车辆 | |
EP1933303B1 (en) | Speech dialog control based on signal pre-processing | |
DE10191732B4 (de) | Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem | |
CN101064975B (zh) | 车辆通信系统 | |
CN105835804B (zh) | 用于监测车辆后部乘客就坐区域的方法和设备 | |
CN109545219A (zh) | 车载语音交互方法、系统、设备及计算机可读存储介质 | |
CN109263645A (zh) | 用于调整机动车的运行参数的方法和系统以及机动车 | |
US8284042B2 (en) | System and method of vehicle passenger detection for rear seating rows | |
EP2797794A1 (en) | Systems, methods, and apparatus for identifying an occupant of a vehicle | |
DE102013208506A1 (de) | Hierarchische Erkennung von Fahrzeugfahrer und Auswahlaktivierung von Fahrzeugeinstellungen auf der Grundlage der Erkennung | |
CN106696882A (zh) | 具有紧急呼叫的自动连接的车辆及其控制方法 | |
DE102022106036A1 (de) | Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug | |
US11355136B1 (en) | Speech filtering in a vehicle | |
JP4360308B2 (ja) | 車載音響制御システム及びaiエージェント | |
US20110301954A1 (en) | Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system | |
US11404061B1 (en) | Speech filtering for masks | |
CN114194122B (zh) | 一种安全提示系统及汽车 | |
US20180157459A1 (en) | Ear monitoring audio | |
DE102006058758B4 (de) | Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung | |
US20230206918A1 (en) | Speech Recognition System and Method for Providing Speech Recognition Service | |
JP2019191477A (ja) | 音声認識装置及び音声認識方法 | |
US11787290B2 (en) | Projection on a vehicle window | |
CN220363321U (zh) | 一种车载自学习座舱和车辆 | |
US20230035752A1 (en) | Systems and methods for responding to audible commands and/or adjusting vehicle components based thereon | |
US20230047872A1 (en) | Multimodal occupant-seat mapping for safety and personalization applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |