CN114187906A - 一种车辆控制器及语音唤醒方法 - Google Patents
一种车辆控制器及语音唤醒方法 Download PDFInfo
- Publication number
- CN114187906A CN114187906A CN202111388766.8A CN202111388766A CN114187906A CN 114187906 A CN114187906 A CN 114187906A CN 202111388766 A CN202111388766 A CN 202111388766A CN 114187906 A CN114187906 A CN 114187906A
- Authority
- CN
- China
- Prior art keywords
- audio data
- module
- awakening
- vehicle
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 37
- 230000000875 corresponding effect Effects 0.000 claims description 18
- 230000001276 controlling effect Effects 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 10
- 238000012952 Resampling Methods 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 230000002618 waking effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72409—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
- H04M1/72412—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories using two-way short-range wireless interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72433—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/48—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for in-vehicle communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/80—Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W76/00—Connection management
- H04W76/10—Connection setup
- H04W76/14—Direct-mode setup
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种车辆控制器及语音唤醒方法,包括音频数据采集模块,用于采集原始口令音频数据并处理,得到原始口令脉冲编码调制音频数据;音频数据处理模块,用于将所述原始口令脉冲编码调制音频数据处理得到原始口令标准音频数据;语音唤醒模块,用于在满足预设唤醒口令的情况下与目标移动终端通信;逻辑控制模块,分别与所述音频数据采集模块、所述音频数据处理模块以及所述语音唤醒模块连接,用于识别所述原始口令标准音频数据并进行唤醒命中判断,若所述唤醒命中的唤醒词满足预设唤醒口令,则控制所述语音唤醒模块与所述目标移动终端通信。本发明的车辆控制器,减少了外界环境噪音的干涉,便于快速准确地唤醒、控制移动终端。
Description
技术领域
本发明涉及语音控制技术领域,特别地,涉及一种车辆控制器。本发明还涉及一种语音唤醒方法。
背景技术
在行驶两轮车、三轮车以及驾驶四轮车的过程中,不可避免的会遇到手机来电话中断行驶或者需要手机地图进行导航引导等使用手机的情况,但是在车辆行驶过程中用手触摸屏幕操作手机实际是比较危险的情况。
现有技术中,手机内置语音助手由于行驶时风噪较大、或车内的空调噪音等原因使用语音操作时手机难以识别,导致车辆行驶过程中难以使用语音操作,用户在车辆行驶过程与手机交互不便且安全隐患大的技术问题。
发明内容
本发明提供的车辆控制器,以解决现有的用户在车辆行驶过程与手机交互不便且安全隐患大的技术问题。
为实现上述目的,本发明采用的技术方案如下:
一种车辆控制器,包括音频数据采集模块,用于采集原始口令音频数据并处理,得到原始口令脉冲编码调制音频数据;音频数据处理模块,用于将所述原始口令脉冲编码调制音频数据处理得到原始口令标准音频数据;语音唤醒模块,用于在满足预设唤醒口令的情况下与目标移动终端通信;逻辑控制模块,分别与所述音频数据采集模块、所述音频数据处理模块以及所述语音唤醒模块连接,用于识别所述原始口令标准音频数据并进行唤醒命中判断,若所述唤醒命中的唤醒词满足预设唤醒口令,则控制所述语音唤醒模块与所述目标移动终端通信。
进一步地,所述车辆控制器还包括与所述语音唤醒模块连接的车辆控制模块,所述逻辑控制模块还用于识别所述原始口令标准音频数据并进行唤醒命中判断,若所唤醒命中的唤醒词满足预设操作口令,则控制所述语音唤醒模块与所述车辆控制模块通信,所述车辆控制器还包括与所述车辆控制模块连接的车辆状态监测模块,所述车辆状态监测模块用于获取目标车辆终端的车辆当前物理状态,所述车辆控制模块用于响应所述语音唤醒模块,获取所述预设操作口令对应的车辆目标状态,判断所述车辆当前物理状态和所述车辆目标状态是否一致,若所述车辆当前物理状态和所述车辆目标状态不一致,控制目标终端车辆响应所述操作口令并执行对应的动作至所述车辆目标状态。
进一步地,所述预设唤醒口令包括预设控制指令和预设语音助手指令,若所述唤醒命中的唤醒词满足预设语音助手指令,则控制所述语音唤醒模块唤醒所述移动终端并将所述原始口令标准音频数据发送至所述移动终端,以使所述移动终端响应所述预设语音助手指令;若所述唤醒命中的唤醒词满足预设控制指令,则控制所述语音唤醒模块向所述移动终端发送所述预设控制指令,以使所述移动终端响应所述预设控制指令。
进一步地,所述预设控制指令包括电话控制指令、音乐播放控制指令以及音量控制指令。
进一步地,所述逻辑控制模块将所述原始口令标准音频数据进行分帧、加窗、傅里叶变换、提取特征值后再利用隐马尔科夫模型和标准的声学模型进行唤醒命中判断。
进一步地,所述音频数据采集模块用于采集麦克风信号和参考音信号,进行重采样得到所述原始口令脉冲编码调制音频数据。
进一步地,所述音频数据处理模块,用于将所述麦克风信号和重采样后的参考音信号按照每160ms一个数据块交替排列合并,进行回音消除、噪音拟制以及自动增益处理得到所述原始口令标准音频数据。
进一步地,所述语音唤醒模块通过蓝牙传输与目标移动终端通信。
本发明还提供一种语音唤醒方法,用于上述的车辆控制器,包括如下步骤:获取原始口令脉冲编码调制音频数据,原始口令脉冲编码调制音频数据是基于车辆控制器中的音频数据采集模块而获取的;获取原始口令标准音频数据,原始口令标准音频数据使基于车辆控制器中的音频数据处理模块而获取的;基于车辆控制器中的逻辑控制模块识别并判断是否满足预设唤醒口令;在满足预设唤醒口令的情况通过逻辑控制模块控制语音唤醒模块与目标移动终端通信,语音唤醒模块集成在车辆控制器中。
进一步地,预设唤醒口令包括预设控制指令和预设语音助手指令,若唤醒命中的唤醒词包括预设语音助手指令,则控制语音唤醒模块唤醒移动终端,并将原始口令标准音频数据发送至移动终端;若唤醒命中的唤醒词包括预设控制指令,则控制语音唤醒模块向移动终端发送预设控制指令。
本发明具有以下有益效果:
本发明的车辆控制器,通过音频数据采集模块采集外部的原始口令音频数据,并对原始声音原始口令音频数据进行处理得到原始口令脉冲编码调制音频数据;通过音频数据处理模块将原始口令脉冲编码调制音频数据进行处理形成噪音较小并可以被识别的原始口令标准音频数据;通过逻辑控制模块识别原始口令标准音频数据并进行唤醒命中判断,进而在需要与移动终端进行通讯的情况下,控制语音唤醒模块与移动终端建立通信连接,以实现通过原始口令标准音频数据与移动终端进行交互。通过语音唤醒模块与目标移动终端通信连接,使被处理后的标准语音唤醒手机内置的语音助手,减少了外界环境噪音的干涉,使得手机语音助手能正常识别标准语音,进而便于在行驶过程中正常使用手机,控制手机接入对应状态。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的车辆控制器的结构框图之一;
图2是本发明优选实施例的车辆控制器的结构框图之二;
图3是本发明优选实施例的车辆控制器的方案实施流程图;
图4是本发明优选实施例的语音唤醒方法的流程图之一;
图5是本发明优选实施例的语音唤醒方法的流程图之一。
图例说明:
200、车辆控制器;201、音频数据采集模块;202、音频数据处理模块;203、语音唤醒模块;204、逻辑控制模块;205、车辆状态监测模块;206、车辆控制模块。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由下述所限定和覆盖的多种不同方式实施。
图1是本发明优选实施例的车辆控制器的结构框图之一;图2是本发明优选实施例的车辆控制器的结构框图之二;图3是本发明优选实施例的车辆控制器的方案实施流程图;图4是本发明优选实施例的语音唤醒方法的流程图之一;图5是本发明优选实施例的语音唤醒方法的流程图之一。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本发明的一实施例中的车辆控制器200,包括音频数据采集模块201、音频数据处理模块202、语音唤醒模块203以及逻辑控制模块204。其中:音频数据采集模块201,用于采集原始口令音频数据并处理,得到原始口令脉冲编码调制音频数据。可选地,原始口令音频数据可以是用户在行驶过程中发出的语音口令,音频数据采集模块201包括麦克风单元。本发明中,音频数据采集模块201用于采集麦克风信号和参考音信号,进行重采样得到原始口令脉冲编码调制音频数据,采用硬件重采样得到16K采样率音频的原始口令脉冲编码调制音频数据,具有不额外占用CPU、语音口令保真度高,处理时效性高的优势。
具体地,请参考图3,启动后,音频数据采集模块201开始录音,获取麦克风信号和参考信号,由于蓝牙音乐播放的采样值一般为44.1k,但是语音识别的音频采样值一般为16k,需要重采样到16k,对于传统重采样一般采用软件重采样,本方案使用硬件重采样,将44.1k的数据信号进行数模转化到模拟信号,然后重新进行模数转化到16k的数字信号,对比传统软件重采样的优势有声音保真度高、处理时效性高、不额外占用CPU资源等特点。
进一步地,在音频数据采集模块201上集成有维纳滤波器单元,采用维纳滤波器,使用一个固定的参数来过滤稳定的信号,使其尽可能接近原始信号。本发明中,原始口令脉冲编码调制音频数据为pcm音频数据,即未经压缩的音频采样数据裸流,它是由模拟信号经过采样、量化、编码转换成的标准数字音频数据;参考音信号用于在回音消除时消去的声音信号,在本发明中可以理解为喇叭播放的声音信号;重采样,即重新调整模拟信号到数字信号的采样率,从而得到符合要求的音频数据信号。
音频数据处理模块202,用于将原始口令脉冲编码调制音频数据处理得到原始口令标准音频数据。本发明中,音频数据处理模块202用于将麦克风信号和重采样后的参考音信号按照每160ms一个数据块交替排列合并,进行回音消除、噪音拟制以及自动增益处理得到原始口令标准音频数据。可以理解地,采集到麦克风信号和重采样后,将麦克风信号和重采样后的参考音信号按照每160ms一个数据块交替排列合并,采用硬件重采样来解决采样率不匹配的问题,相对于传统的立体声数据结构(左声道数据+右声道数据)以及传统软件重采样的方案具有保真度高,实施率高,没有CPU资源消耗等特点,在进行回音消除时能减少拆分次数,避免后续回音消除时的数据重复拆分,提高数据处理效率。
请再次参考图3,原始口令脉冲编码调制音频数据处理包括回音消除、降噪拟制以及自动增益三个步骤,相对于传统的只有回音消除,本发明中增加了降噪拟制和自动增益处理,有利于降低外部风噪和环境噪音,提高了信噪比,调整了增益使得音量大小适中,从而提高了逻辑控制模块204识别和判断的准确性,提高了与移动终端交互时的准确度,避免了需要用户多次发出原始口令以控制移动终端。可以理解地,噪声抑制(NS):降低语音信号中的噪声能量,增加信噪比自动增益控制(AGC):自动增益控制是处理面对录音因为大量不同设置而导致音量变化,AGC提供了一种方式去调整参考音量,这在VOIP中是很有用的,因为不需再手动调节麦克风的增益,还有另外一个优点是麦克风增益在一个比较保守的水平,它更容易避免削波、失真;回音消除(AEC):回声消除技术,采用回波抵消方法,也就是通过自适应方法估计回波信号的大小,然后在接收信号中减去此估计值以抵消回波。
更优地,本发明中的音频数据采集模块201还集成有自适应滤波,解决麦克风阵列或多路采样时可能会有时延抖动问题。本发明中,在AEC技术中需要对声音数据在不同时延状态下进行回波抵消。
语音唤醒模块203,用于在满足预设唤醒口令的情况下与目标移动终端通信。可以理解地,语音唤醒模块203通过蓝牙传输与目标移动终端通信。具体地,逻辑控制模块204启动整个系统,语音唤醒模块203与移动终端建立蓝牙通信连接,语音唤醒模块203与移动终端第一次建立通信连接时采用手动连接,在语音唤醒模块203与移动终端具有历史通讯连接后,即可自动进行蓝牙匹配。
逻辑控制模块204,分别与音频数据采集模块201、音频数据处理模块202以及语音唤醒模块203连接,用于识别原始口令标准音频数据并进行唤醒命中判断,若唤醒命中的唤醒词满足预设唤醒口令,则控制语音唤醒模块203与目标移动终端通信。可以理解地,若唤醒命中的唤醒词不满足预设唤醒口令,则结束工作。可选地,预设唤醒口令可以是常见的各种操控命令,例如拨打电话+姓名或拨打电话+电话号码、接听电话、拒接电话、播放、暂停/继续播放音乐、天气查询等。
请参考图3,预设唤醒口令包括预设控制指令和预设语音助手指令,若唤醒命中的唤醒词满足预设语音助手指令,则控制语音唤醒模块203唤醒移动终端并将原始口令标准音频数据发送至移动终端,以使移动终端响应预设语音助手指令;若唤醒命中的唤醒词满足预设控制指令,则控制语音唤醒模块203向移动终端发送预设控制指令,以使移动终端响应预设控制指令。具体地,在本发明中,当原始口令包括预设语音助手指令时,唤醒移动终端,通过蓝牙通信协议将原始口令标准音频数据发送至移动终端以启动手机原生语音助手,由于原始口令标准音频数据是经过音频数据处理模块202处理后得到的数据,噪音小,能快速准确地唤醒移动终端并启动移动终端的语音助手,进而便于用于直接与移动终端直接进行交互;当原始口令包括预设控制指令时,通过蓝牙通信协议直将对应的预设控制口令发送到移动终端,进而控制移动终端。预设控制口令可以是接听、挂断、播放、暂停、音量调大、音量调小等,例如,直接调整移动终端的音量。
可以理解地,本发明中,仅仅通过车辆控制器200直接唤醒手机并发送响应的原始语音助手指令以启动手机原生语音助手,而后用户直接与移动终端进行交互;或者仅仅通过车辆控制器200直接发送预设控制口令直接移动终端,能够实现远距离和杂噪环境下准备快速地唤醒语音助手或控制手机直接调整音量等,相对于现有的额直接使用原始口令激活手机语音助理,具有更好的声学前端预处理,在较大的噪音环境下提高了识别率和唤醒率,且没有CPU等资源消耗,车辆控制器200的续航时间长。
可选地,预设控制指令包括电话控制指令、音乐播放控制指令以及音量控制指令。
可以理解地,逻辑控制模块204将原始口令标准音频数据进行分帧、加窗、FFT(傅里叶变换)、提取特征值后再利用隐马尔科夫模型和标准的声学模型进行唤醒命中判断,再根据唤醒命中的唤醒词是否为启动手机语音识别的指令进行原始口令标准音频数据的分发,如果唤醒命中的唤醒词为启动手机语音助手指令,则在发送唤醒指令的同时,打开录音分发,通过语音唤醒模块203将原始口令标准音频数据发送到手机的语音识别,使手机进行语音识别;如果命中的唤醒词为快捷控制指令则只需要将控制指令发到手机,进行手机控制而不需要传输录音。对比传统唤醒模块本方案将唤醒和识别分离能实现远距离唤醒,唤醒不再额外占用CPU。
可选地,本发明中的移动终端可以是智能手机、平板PC、可穿戴装置等。
本发明的车辆控制器200,通过音频数据采集模块201采集外部的原始口令音频数据,并对原始口令音频数据进行处理得到原始口令脉冲编码调制音频数据;通过音频数据处理模块202将原始口令脉冲编码调制音频数据进行处理形成噪音较小并可以被识别的原始口令标准音频数据;通过逻辑控制模块204识别原始口令标准音频数据并进行唤醒命中判断,进而在需要与移动终端进行通讯的情况下,控制语音唤醒模块203与移动终端建立通信连接,以实现通过原始口令标准音频数据控制与移动终端进行交互。通过语音唤醒模块203与目标移动终端通信连接,使被处理后的标准语音数据唤醒手机内置的语音助手,减少了外界环境噪音的干涉,使得语音助手能正常识别标准语音,进而便于在行驶过程中正常使用手机,控制手机接入对应的状态。
请参考图2,在本发明的另一实施例中,车辆控制器还包括与语音唤醒模块连接的车辆控制模块,逻辑控制模块还用于识别原始口令标准音频数据并进行唤醒命中判断,若所唤醒命中的唤醒词满足预设操作口令,则控制语音唤醒模块与车辆控制模块通信,车辆控制器还包括与车辆控制模块连接的车辆状态监测模块,车辆状态监测模块用于获取目标车辆终端的车辆当前物理状态,车辆控制模块用于响应语音唤醒模块,获取预设操作口令对应的车辆目标状态,判断车辆当前物理状态和车辆目标状态是否一致,若车辆当前物理状态和车辆目标状态不一致,控制目标终端车辆响应操作口令并执行对应的动作至车辆目标状态。在所唤醒命中的唤醒词满足预设操作口令时,控制语音唤醒模块与车辆控制模块通信向车辆控制模块发送预设操作口令,车辆控制模块用于响应语音唤醒模块的预设操作口令,获取预设操作口令对应的车辆目标状态。
可以理解地,车辆当前物理状态可以是“双闪状态、大灯打开状态、行驶状态、启动状态等中的一种或多种”。本发明中,车辆状态检测模块用于检测车辆控制器的物理状态,进而做到和车辆控制器联动,达到通过物理控制监测的效果。具体地,在本发明中,如果唤醒命中的唤醒词为“打开大灯”,车辆控制模块通过车辆状态监测模块205获取车辆终端的车辆当前状态,若车辆当前状态为“大灯打开”状态则结束控制,若车辆当前状态为“大灯未打开状态”,则车辆控制模块向目标车辆终端发送预设操作口令,以使车辆终端响应预设操作指令,打开大灯。本发明中,通过监测车辆控制器采用物理的方式监测车辆当前状态,并且通过语音控制车辆的状态,车辆终端能正常识别标准语音,进而切换至对应的状态,便于在行驶过程中通过语音准确操控车辆。
可选地,车辆当前状态包括通过物理按键控制的物理操作当前状态和通过语音控制(或触摸控制)的语音操作当前状态,其中物理操作当前状态只能通过操作物理按键进行控制,语音操作当前状态既可以通过语音控制,又可以通过触摸控制。以下以物理操作当前状态的脉冲表征信号和语音操作当前状态的脉冲表征信号不同进行说明,例如物理操作当前状态的脉冲表征信号为在100ms内基础电平为高电平;语音操作当前状态的脉冲表征信号为在100ms内,99ms的基础电平为高电平,1ms的低电平脉冲。
更优地,车辆控制模块206用于响应语音唤醒模块203的预设操作口令,获取预设操作口令对应的车辆目标状态,识别车辆当前物理状态是否为语音操作当前状态,在车辆当前物理状态为语音操作当前状态时,判断语音操作当前状态和车辆目标状态是否一致,若语音操作当前状态和车辆目标状态不一致,控制目标终端车辆响应操作口令并执行对应的动作以切换至车辆目标状态;若语音操作当前状态和车辆目标状态一致,则结束操作;在车辆当前物理状态为物理操作当前状态时,发出提示信息,用于提示用户可以通过物理操作以更改车辆当前物理状态。
本发明中,通过识别车辆当前状态是否为语音操作状态,避免用户进行语音误操作,例如避免用户在天黑的情况下驾驶,语音误操作关闭车灯等。
具体地,通过预设操作口令控制语音操作当前状态时,控制信号需要载波上特殊的标识信号,以让车辆监测控制模块识别出控制信号的来源。如在100ms时间段内,车辆当前物理状态为高低电平控制则表示为物理操作当前状态,若控制信号发送为基础为高电平99ms,但有1ms的低电平脉冲时表示为语音操作当前状态。
请参考图4,本发明还提供一种语音唤醒方法,用于上述的车辆控制器200,包括如下步骤:S101,获取原始口令脉冲编码调制音频数据,原始口令脉冲编码调制音频数据是基于车辆控制器200中的音频数据采集模块201而获取的;S102,获取原始口令标准音频数据,原始口令标准音频数据使基于车辆控制器200中的音频数据处理模块202而获取的;S102,基于车辆控制器200中的逻辑控制模块204识别并判断是否满足预设唤醒口令;S104,在满足预设唤醒口令的情况通过逻辑控制模块204控制语音唤醒模块203与目标移动终端通信,语音唤醒模块203集成在车辆控制器200中。
进一步地,预设唤醒口令包括预设控制指令和预设语音助手指令,步骤S104具体包括:S1041,若唤醒命中的唤醒词包括预设语音助手指令,则控制语音唤醒模块203唤醒移动终端,并将原始口令标准音频数据发送至移动终端;S1042,若唤醒命中的唤醒词包括预设控制指令,则控制语音唤醒模块203向移动终端发送预设控制指令。
请参考图5,在本发明的另一实施例中,语音唤醒方法还包括步骤:若唤醒命中的唤醒词满足预设操作口令,获取目标车辆终端的车辆当前物理状态和预设操作口令对应的车辆目标状态,判断车辆目标状态和车辆当前物理状态是否一致,若车辆目标状态和车辆当前物理状态不一致,车辆控制模块将预设操作口令发送至目标终端车辆,以使目标终端车辆响应操作口令并执行对应的动作。
更优地,车辆当前物理状态包括物理操作当前状态和语音操作当前状态,在“获取目标车辆终端的车辆当前物理状态和预设操作口令对应的车辆目标状态”之后,判断车辆当前物理状态是否为语音操作当前状态,在车辆当前状态为语音操作当前状态时,判断车辆目标状态和语音操作当前车辆状态是否一致,若车辆目标状态和语音操作当前车辆状态不一致,控制语音唤醒模块203将预设操作口令发送至目标终端车辆,以使目标终端车辆响应操作口令并执行对应的动作。
本发明的控制方法,通过车辆控制器200直接唤醒手机并发送相应的原始语音助手指令以启动手机原生语音助手,而后用户直接与移动终端进行交互;或者仅仅通过车辆控制器200直接发送预设控制口令直接移动终端,能够实现远距离和杂噪环境下准备快速地唤醒语音助手或控制手机直接调整音量等,相对于现有的额直接使用原始口令激活手机语音助理,具有更好的声学前端预处理,在较大的噪音环境下提高了识别率和唤醒率,且没有CPU等资源消耗,车辆控制器200的续航时间长。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种车辆控制器,其特征在于,包括,
音频数据采集模块,用于采集原始口令音频数据并处理,得到原始口令脉冲编码调制音频数据;
音频数据处理模块,用于将所述原始口令脉冲编码调制音频数据处理得到原始口令标准音频数据;
语音唤醒模块,用于在满足预设唤醒口令的情况下与目标移动终端通信;
逻辑控制模块,分别与所述音频数据采集模块、所述音频数据处理模块以及所述语音唤醒模块连接,用于识别所述原始口令标准音频数据并进行唤醒命中判断,若所述唤醒命中的唤醒词满足预设唤醒口令,则控制所述语音唤醒模块与所述目标移动终端通信。
2.根据权利要求1所述的车辆控制器,其特征在于,
所述车辆控制器还包括与所述语音唤醒模块连接的车辆控制模块,所述逻辑控制模块还用于识别所述原始口令标准音频数据并进行唤醒命中判断,若所唤醒命中的唤醒词满足预设操作口令,则控制所述语音唤醒模块与所述车辆控制模块通信,
所述车辆控制器还包括与所述车辆控制模块连接的车辆状态监测模块,所述车辆状态监测模块用于获取目标车辆终端的车辆当前物理状态,
所述车辆控制模块用于响应所述语音唤醒模块,获取所述预设操作口令对应的车辆目标状态,判断所述车辆当前物理状态和所述车辆目标状态是否一致,若所述车辆当前物理状态和所述车辆目标状态不一致,控制目标终端车辆响应所述操作口令并执行对应的动作至所述车辆目标状态。
3.根据权利要求1或2所述的车辆控制器,其特征在于,
所述预设唤醒口令包括预设控制指令和预设语音助手指令,
若所述唤醒命中的唤醒词满足预设语音助手指令,则控制所述语音唤醒模块唤醒所述移动终端并将所述原始口令标准音频数据发送至所述移动终端,以使所述移动终端响应所述预设语音助手指令;
若所述唤醒命中的唤醒词满足预设控制指令,则控制所述语音唤醒模块向所述移动终端发送所述预设控制指令,以使所述移动终端响应所述预设控制指令。
4.根据权利要求3所述的车辆控制器,其特征在于,
所述预设控制指令包括电话控制指令、音乐播放控制指令以及音量控制指令。
5.根据权利要求3所述的车辆控制器,其特征在于,
所述逻辑控制模块将所述原始口令标准音频数据进行分帧、加窗、傅里叶变换、提取特征值后再利用隐马尔科夫模型和标准的声学模型进行唤醒命中判断。
6.根据权利要求3所述的车辆控制器,其特征在于,
所述音频数据采集模块用于采集麦克风信号和参考音信号,进行重采样得到所述原始口令脉冲编码调制音频数据。
7.根据权利要求6所述的车辆控制器,其特征在于,
所述音频数据处理模块,用于将所述麦克风信号和重采样后的参考音信号按照每160ms一个数据块交替排列合并,进行回音消除、噪音拟制以及自动增益处理得到所述原始口令标准音频数据。
8.根据权利要求3所述的车辆控制器,其特征在于,
所述语音唤醒模块通过蓝牙传输与目标移动终端通信。
9.一种语音唤醒方法,用于如权利要求1至8任一项所述的车辆控制器,其特征在于,包括如下步骤:
获取原始口令脉冲编码调制音频数据,所述原始口令脉冲编码调制音频数据是基于车辆控制器中的音频数据采集模块而获取的;
获取原始口令标准音频数据,所述原始口令标准音频数据使基于车辆控制器中的音频数据处理模块而获取的;
基于车辆控制器中的逻辑控制模块识别并判断是否满足预设唤醒口令;
在满足预设唤醒口令的情况通过所述逻辑控制模块控制语音唤醒模块与目标移动终端通信,所述语音唤醒模块集成在车辆控制器中。
10.根据权利要求9所述语音唤醒方法,其特征在于,
所述预设唤醒口令包括预设控制指令和预设语音助手指令,
若所述唤醒命中的唤醒词包括预设语音助手指令,则控制所述语音唤醒模块唤醒所述移动终端,并将所述原始口令标准音频数据发送至所述移动终端;
若所述唤醒命中的唤醒词包括预设控制指令,则控制所述语音唤醒模块向所述移动终端发送所述预设控制指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111388766.8A CN114187906A (zh) | 2021-11-22 | 2021-11-22 | 一种车辆控制器及语音唤醒方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111388766.8A CN114187906A (zh) | 2021-11-22 | 2021-11-22 | 一种车辆控制器及语音唤醒方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114187906A true CN114187906A (zh) | 2022-03-15 |
Family
ID=80541167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111388766.8A Pending CN114187906A (zh) | 2021-11-22 | 2021-11-22 | 一种车辆控制器及语音唤醒方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114187906A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035896A (zh) * | 2022-05-31 | 2022-09-09 | 中国第一汽车股份有限公司 | 车用语音唤醒方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106603826A (zh) * | 2016-11-29 | 2017-04-26 | 维沃移动通信有限公司 | 一种应用事件的处理方法及移动终端 |
CN110001549A (zh) * | 2019-04-17 | 2019-07-12 | 百度在线网络技术(北京)有限公司 | 用于控制车辆的方法和装置 |
CN110182155A (zh) * | 2019-05-14 | 2019-08-30 | 中国第一汽车股份有限公司 | 车载控制系统的语音控制方法、车载控制系统和车辆 |
CN110426964A (zh) * | 2019-08-13 | 2019-11-08 | 合肥美的电冰箱有限公司 | 家电控制装置、智能设备、家电、家电控制系统及方法 |
CN110430492A (zh) * | 2019-08-07 | 2019-11-08 | 王家春 | 一种智能语音交互语音控制的无线麦克风系统及其实现方法 |
CN111131966A (zh) * | 2019-12-26 | 2020-05-08 | 上海传英信息技术有限公司 | 模式控制方法、耳机系统及计算机可读存储介质 |
CN212010364U (zh) * | 2020-02-18 | 2020-11-24 | 上海华镇电子科技有限公司 | 车载语音智能蓝牙集成装置 |
CN112040442A (zh) * | 2020-08-21 | 2020-12-04 | 博泰车联网(南京)有限公司 | 交互方法、移动终端、车载终端及计算机可读存储介质 |
CN113409788A (zh) * | 2021-07-15 | 2021-09-17 | 深圳市同行者科技有限公司 | 语音唤醒方法、系统、设备及存储介质 |
-
2021
- 2021-11-22 CN CN202111388766.8A patent/CN114187906A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106603826A (zh) * | 2016-11-29 | 2017-04-26 | 维沃移动通信有限公司 | 一种应用事件的处理方法及移动终端 |
CN110001549A (zh) * | 2019-04-17 | 2019-07-12 | 百度在线网络技术(北京)有限公司 | 用于控制车辆的方法和装置 |
CN110182155A (zh) * | 2019-05-14 | 2019-08-30 | 中国第一汽车股份有限公司 | 车载控制系统的语音控制方法、车载控制系统和车辆 |
CN110430492A (zh) * | 2019-08-07 | 2019-11-08 | 王家春 | 一种智能语音交互语音控制的无线麦克风系统及其实现方法 |
CN110426964A (zh) * | 2019-08-13 | 2019-11-08 | 合肥美的电冰箱有限公司 | 家电控制装置、智能设备、家电、家电控制系统及方法 |
CN111131966A (zh) * | 2019-12-26 | 2020-05-08 | 上海传英信息技术有限公司 | 模式控制方法、耳机系统及计算机可读存储介质 |
CN212010364U (zh) * | 2020-02-18 | 2020-11-24 | 上海华镇电子科技有限公司 | 车载语音智能蓝牙集成装置 |
CN112040442A (zh) * | 2020-08-21 | 2020-12-04 | 博泰车联网(南京)有限公司 | 交互方法、移动终端、车载终端及计算机可读存储介质 |
CN113409788A (zh) * | 2021-07-15 | 2021-09-17 | 深圳市同行者科技有限公司 | 语音唤醒方法、系统、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035896A (zh) * | 2022-05-31 | 2022-09-09 | 中国第一汽车股份有限公司 | 车用语音唤醒方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410952B (zh) | 一种语音唤醒方法、装置及系统 | |
AU2019246868B2 (en) | Method and system for voice activation | |
CN106910500B (zh) | 对带麦克风阵列的设备进行语音控制的方法及设备 | |
US9721560B2 (en) | Cloud based adaptive learning for distributed sensors | |
CN107580113B (zh) | 提示方法、装置、存储介质及终端 | |
US11605372B2 (en) | Time-based frequency tuning of analog-to-information feature extraction | |
CN205354646U (zh) | 一种应用于车载设备的智能语音识别系统 | |
CN109166575A (zh) | 智能设备的交互方法、装置、智能设备和存储介质 | |
CN108320749A (zh) | 远场语音控制设备和远场语音控制系统 | |
CN103002147A (zh) | 一种移动终端自动应答方法和装置 | |
CN103095911A (zh) | 一种通过语音唤醒寻找手机的方法及系统 | |
CN109949801A (zh) | 一种基于耳机的智能家居设备语音控制方法及系统 | |
CN112311635B (zh) | 语音打断唤醒方法、装置及计算机可读存储介质 | |
CN109361995B (zh) | 一种电器设备的音量调节方法、装置、电器设备和介质 | |
CN109754823A (zh) | 一种语音活动检测方法、移动终端 | |
CN112581960A (zh) | 语音唤醒方法、装置、电子设备及可读存储介质 | |
CN110049193A (zh) | 基于车载hud和方向盘蓝牙控制的微信消息回复装置 | |
CN114187906A (zh) | 一种车辆控制器及语音唤醒方法 | |
CN115810356A (zh) | 语音控制方法、装置、存储介质以及电子设备 | |
WO2022068694A1 (zh) | 电子设备及其唤醒方法 | |
CN108877799A (zh) | 一种语音控制装置及方法 | |
CN112017636B (zh) | 基于车辆的用户发音模拟方法、系统、设备及存储介质 | |
CN104811792A (zh) | 一种通过手机声控电视盒子的系统及方法 | |
CN111901704A (zh) | 音频数据处理方法、装置、设备及计算机可读存储介质 | |
CN112911062A (zh) | 语音处理方法、控制装置、终端设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |