CN108447472A - 语音唤醒方法及装置 - Google Patents
语音唤醒方法及装置 Download PDFInfo
- Publication number
- CN108447472A CN108447472A CN201710084311.4A CN201710084311A CN108447472A CN 108447472 A CN108447472 A CN 108447472A CN 201710084311 A CN201710084311 A CN 201710084311A CN 108447472 A CN108447472 A CN 108447472A
- Authority
- CN
- China
- Prior art keywords
- voice
- value
- wake
- noise
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002618 waking effect Effects 0.000 claims abstract description 27
- 230000002596 correlated effect Effects 0.000 claims abstract description 9
- 230000000875 corresponding effect Effects 0.000 claims description 11
- 238000009434 installation Methods 0.000 claims description 4
- 235000015170 shellfish Nutrition 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 15
- 230000009467 reduction Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000005611 electricity Effects 0.000 description 5
- 238000011946 reduction process Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000002889 sympathetic effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012905 input function Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K2360/00—Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
- B60K2360/148—Instrument input by voice
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
- B60K35/10—Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Combustion & Propulsion (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Chemical & Material Sciences (AREA)
- Traffic Control Systems (AREA)
- Navigation (AREA)
- Telephone Function (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本发明公开了一种语音唤醒方法及装置,属于语音处理技术领域。所述方法包括:采集当前时刻车内的语音信号;计算从所述语音信号中提取的唤醒词的声学得分,所述声学得分用于指示所述唤醒词的真实性;根据车内的噪声确定语音唤醒阈值,所述语音唤醒阈值的大小与所述噪声的大小呈负相关关系;当所述声学得分大于所述语音唤醒阈值时,执行语音唤醒操作。本发明不仅可以提高语音唤醒的成功率;还可以根据车内的噪声确定语音唤醒阈值,使得噪声越大,语音唤醒阈值越低,从而提高语音唤醒的成功率;噪声越小,使得语音唤醒阈值越高,从而降低语音唤醒的误唤醒率;还可以减少车机的成本。
Description
技术领域
本发明涉及语音处理技术领域,特别涉及一种语音唤醒方法及装置。
背景技术
语音唤醒是指用户通过说出唤醒词来唤醒电子设备,使电子设备进入到等待语音指令的状态或使电子设备直接执行预定语音指令。语音唤醒通常应用于车机中,这样,司机不需要手动操作即可控制车机。
由于高速行车时车内的噪声较大,因此,车机需要对用户说出的语音信号进行降噪处理。具体地,可以在麦克风上增加硬件降噪模块,通过该硬件降噪模块对麦克风采集到的语音信号进行降噪处理,再利用降噪处理后的语音信号进行语音唤醒。
当噪声较大时,即使通过硬件降噪模块对语音信号进行了降噪处理,得到的语音信号中的噪声仍然较大,影响语音唤醒的成功率。另外,增加硬件降噪模块会增加车机的成本,且增加硬件降噪模块后,还需要对麦克风的电路进行调整,进一步增加了车机的成本。
发明内容
为了解决经硬件降噪模块处理后的语音信号中的噪声较大,影响语音唤醒的准确率以及增加了车机的成本的问题,本发明实施例提供了一种语音唤醒方法及装置。所述技术方案如下:
第一方面,提供了一种语音唤醒方法,用于位于车内的电子设备中,所述方法包括:
采集当前时刻车内的语音信号;
计算从所述语音信号中提取的唤醒词的声学得分,所述声学得分用于指示所述唤醒词的真实性;
根据车内的噪声确定语音唤醒阈值,所述语音唤醒阈值的大小与所述噪声的大小呈负相关关系;
当所述声学得分大于所述语音唤醒阈值时,执行语音唤醒操作。
第二方面,提供了一种语音唤醒装置,用于位于车内的电子设备中,所述装置包括:
采集模块,用于采集当前时刻车内的语音信号;
计算模块,用于计算从所述采集模块得到的所述语音信号中提取的唤醒词的声学得分,所述声学得分用于指示所述唤醒词的真实性;
第一确定模块,用于根据车内的噪声确定语音唤醒阈值,所述语音唤醒阈值的大小与所述噪声的大小呈负相关关系;
执行模块,用于当所述计算模块得到的所述声学得分大于所述第一确定模块得到的所述语音唤醒阈值时,执行语音唤醒操作。
电子设备计算唤醒词的声学得分,并将声学得分与语音唤醒阈值进行比较,根据比较结果确定是否执行语音操作,这样,即使语音信号中的噪声较大,只要该语音信号中的唤醒词的声学得分大于语音唤醒阈值,即可执行语音唤醒操作,从而提高语音唤醒的成功率。
电子设备根据车内的噪声确定语音唤醒阈值,使得噪声越大,语音唤醒阈值越低,从而提高语音唤醒的成功率;噪声越小,使得语音唤醒阈值越高,从而降低语音唤醒的误唤醒率。
当电子设备是车机时,由于不需要在车机中增加硬件降噪模块,因此,可以减少车机的成本;另外,由于不需要在车机中增加硬件降噪模块,因此,也就不需要对麦克风的电路进行调整,从而可以进一步减少车机的成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据部分示例性实施例示出的一种语音唤醒装置的结构示意图;
图2是本发明一个实施例提供的语音唤醒方法的方法流程图;
图3是本发明另一实施例提供的语音唤醒方法的方法流程图;
图4是本发明一个实施例提供的语音唤醒装置的结构框图;
图5是本发明再一实施例提供的语音唤醒装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
下面对本发明实施例涉及到的名词进行解释。
位于车内的电子设备:本实施例中涉及的位于车内的电子设备包括安装在车内的电子设备和位于车内的移动终端。其中,安装在车内的电子设备是中控台或车机或智能后视镜等等,本实施例不作限定。位于车内的移动终端可以是手机或平板电脑或可穿戴设备等等,本实施例不作限定。
中控台:车辆的操作控制台。当电子设备是中控台时,由中控台中安装的操作系统执行语音唤醒方法。
车机:安装在车内的车载信息娱乐产品的简称。车机能够实现人与车、车与车的通信。
智能后视镜:具有独立的操作系统和独立的运行空间,可以由用户自行安装游戏、导航等第三方服务商提供的程序,提供行车记录、GPS(Global Positioning System,全球定位系统)定位、电子测速提醒、倒车可视、实时在线影音娱乐等功能的智能化后视镜。智能后视镜还可以通过WIFI(Wireless Fidelity,无线保真)或者移动网络接入无线网络。
唤醒词:用于唤醒电子设备执行语音唤醒操作的字符串。比如,唤醒词是“Hello,小飞”等。
语音指令:语音控制电子设备执行预定操作的指令。比如,语音指令可以是“导航回家”、“播放音乐”等。
声学得分:用于指示唤醒词的真实性。声学得分与唤醒词的真实性呈正相关关系,即,声学得分越高,唤醒词的真实性越高;声学得分越低,唤醒词的真实性越低。
唤醒词的真实性:唤醒词用于唤醒电子设备执行语音唤醒操作的概率。比如,唤醒词为“小飞”,若用户说出的语句为“小飞今天过来吃饭”,该语句中包含朋友的名字“小飞”,此时“小飞”这个唤醒词并不是用于唤醒电子设备执行语音唤醒操作的,唤醒词的真实性较低;若用户说出的语句为“小飞”,该语句中“小飞”这个唤醒词用于唤醒电子设备执行语音唤醒操作的,唤醒词的真实性较高。
语音唤醒阈值:用于供电子设备判定是否根据唤醒词执行语音唤醒操作。当唤醒词的声学得分大于语音唤醒阈值时,执行语音唤醒操作;当唤醒词的声学得分小于语音唤醒阈值时,不执行语音唤醒操作。
车内的噪声:包括发动机噪声、路噪、胎噪、风噪、共鸣噪等等。发动机噪声是发动机转动所产生的噪声;路噪包括车辆行驶的时候风切入所产生的噪声、行驶带动底盘振动所产生的噪声、路上沙石冲击底盘所产生的噪声;胎噪是轮胎与路面摩擦所产生的噪声;风噪是车辆行驶过程中迎面而来的风的压力超过车门的密封阻力进入车内所产生的噪声;共鸣噪是车内的噪声折射和重叠形成共鸣所产生的噪声。
请参考图1,其示出了本发明实施例提供的一种语音唤醒装置的结构示意图。该语音唤醒装置包括麦克风110、语音识别模块120和语音唤醒阈值动态仲裁模块130,麦克风110和语音唤醒阈值动态仲裁模块130分别与语音识别模块120相连,图1中以实线表示;麦克风110和语音唤醒阈值动态仲裁模块130之间可以相连,也可以不相连,图1中以虚线表示。
下面对位于车内的语音唤醒装置中各模块的功能进行介绍。
麦克风110处于工作状态时,持续采集车内的语音信号,并每隔预定时间段将该时间段内采集的语音信号发送给语音识别模块120。其中,预定时间段的时长通常设置得较短,比如,预定时间段的时长为20-30ms。
语音唤醒阈值动态仲裁模块130用于获取车内的噪声,根据该噪声动态确定语音唤醒阈值,并将语音唤醒阈值发送给语音识别模块120。
语音识别模块120用于识别出语音信号中的唤醒词,并计算唤醒词的声学得分,将声学得分与语音唤醒阈值进行比较,根据比较结果确定是否执行语音唤醒操作。
相关技术中,语音唤醒阈值是固定值,且语音唤醒阈值越低,唤醒成功率越高,误唤醒率越高;语音唤醒阈值越高,唤醒成功率越低,误唤醒率越低。然而车内的噪声是动态变化的,如果车内的噪声较小,说明用户说出的语句较为清晰,此时可以将语音唤醒阈值设置得较大,以降低误唤醒率,若此时的语音唤醒阈值设置得较小,会导致误唤醒率较高;如果车内的噪声较大,说明用户说出的语句不太清晰,此时可以将语音唤醒阈值设置得较小,以提高唤醒成功率,若此时的语音唤醒阈值设置得较大,会导致唤醒成功率较低,因此,需要根据车内的噪声动态确定语音唤醒阈值,以便在误唤醒率和唤醒成功率之间取得平衡。
请参考图2,其示出了本发明一个实施例提供的语音唤醒方法的方法流程图,该语音唤醒方法可以应用于包括图1所示的语音唤醒装置的电子设备中。该语音唤醒方法,包括:
步骤201,采集当前时刻车内的语音信号。
电子设备可以通过麦克风采集车内的语音信号,该语音信号包括用户说出的唤醒词所对应的语音和车内的噪声。
步骤202,计算从语音信号中提取的唤醒词的声学得分,声学得分用于指示唤醒词的真实性。
当电子设备能够从语音信号中提取出唤醒词时,计算该唤醒词的声学得分。比如,某个唤醒词的声学得分是50分。
步骤203,根据车内的噪声确定语音唤醒阈值,语音唤醒阈值的大小与噪声的大小呈负相关关系。
由于车内的噪声是动态变化的,因此,为了保证车内的噪声的准确性,电子设备可以在采集到语音信号时获取车内的噪声。
电子设备中设置有预定算法,电子设备根据预定算法和噪声计算语音唤醒阈值。其中,语音唤醒阈值与噪声的大小呈负相关关系,即,噪声越大,语音唤醒阈值越小;噪声越小,语音唤醒阈值越大。
步骤204,当声学得分大于语音唤醒阈值时,执行语音唤醒操作。
电子设备比较声学得分和语音唤醒阈值,当声学得分大于语音唤醒阈值时,电子设备执行语音唤醒操作;当声学得分小于语音唤醒阈值时,电子设备不执行语音唤醒操作,继续执行步骤201。
综上所述,本发明实施例提供的语音唤醒方法,电子设备计算唤醒词的声学得分,并将声学得分与语音唤醒阈值进行比较,根据比较结果确定是否执行语音操作,这样,即使语音信号中的噪声较大,只要该语音信号中的唤醒词的声学得分大于语音唤醒阈值,即可执行语音唤醒操作,从而提高语音唤醒的成功率。
电子设备根据车内的噪声确定语音唤醒阈值,使得噪声越大,语音唤醒阈值越低,从而提高语音唤醒的成功率;噪声越小,使得语音唤醒阈值越高,从而降低语音唤醒的误唤醒率。
当电子设备是车机时,由于不需要在车机中增加硬件降噪模块,因此,可以减少车机的成本;另外,由于不需要在车机中增加硬件降噪模块,因此,也就不需要对麦克风的电路进行调整,从而可以进一步减少车机的成本。
请参考图3,其示出了本发明另一详细实施例提供的语音唤醒方法的方法流程图,该语音唤醒方法可以应用于包括图1所示的语音唤醒装置的电子设备中。该语音唤醒方法,包括:
步骤301,采集当前时刻车内的语音信号。
电子设备可以通过麦克风采集车内的语音信号。在这种实现方式中,电子设备首先需要启动语音唤醒模块,以使电子设备进行待唤醒模式,处于待唤醒模式中的麦克风开始工作,实时采集车内的语音信号。具体地,麦克风持续采集语音信号,并每隔预定时间段,将该时间段内采集到的语音信号的片段发送给语音识别模块。其中,预定时间段的时长通常设置得较短,比如,预定时间段的时长为20-30ms。
其中,语音唤醒模块的启动方式有很多种,比如,启动电子设备时默认启动语音唤醒模块;或者,电子设备中设置有语音唤醒模块的启动按键,当电子设备接收到用户作用于该启动按键的操作信号时,启动语音唤醒模块等等,本实施例不对语音唤醒模块的启动方式作限定。
本实施例中的语音信号包括用户说出的唤醒词所对应的语音和车内的噪声。比如,用户说出的唤醒词是“小飞”,则麦克风采集到的语音信号包括“小飞”的语音和车内的噪声。
步骤302,计算从语音信号中提取的唤醒词的声学得分,声学得分用于指示唤醒词的真实性。
电子设备可以通过语音识别模块从语音信号中提取唤醒词,相关技术中提取唤醒词的技术已经非常成熟,本实施例不作限定。在一种可能的实现方式中,语音识别模块中预设有语言模型,电子设备通过语言模型从语音信号中提取唤醒词。
电子设备可以通过语音识别模块计算提取的唤醒词的声学得分,相关技术中计算唤醒词的声学得分的技术已经非常成熟,本实施例不作限定。在一种可能的实现方式中,语音识别模块中预设有声学模型,电子设备通过声学模型计算提取的唤醒词的声学得分。
电子设备还需要确定车内的噪声,本实施例提供了噪声的两种确定方式,下面分别通过步骤303和304对这两种确定方式进行介绍。在实际实现时,电子设备可以只执行步骤303;也可以只执行步骤304;还可以既执行步骤303,也执行步骤304,并计算步骤303和304得到的噪声的平均值,将该平均值作为最终计算得到的噪声,以提高噪声计算的准确性。
步骤303,根据语音信号的平均分贝值确定当前时刻车内的噪声。
由于语音信号中包括车内的噪声,因此,麦克风还可以将采集到的语音信号发送给语音唤醒阈值动态仲裁模块,语音唤醒阈值动态仲裁模块计算语音信号的平均分贝值,并根据该平均分贝值确定车内的噪声。相关技术中,根据语音信号的平均分贝值确定噪声的技术已经非常成熟,本实施例不再赘述。
由于语音信号中包括的车内的噪声即为当前时刻车内的噪声,此时确定的噪声较为准确。
可选的,步骤303还可以替换为:获取在语音信号之前采集到的至少一段语音信号,根据至少一段语音信号的平均分贝值确定车内的噪声。
语音唤醒阈值动态仲裁模块可以选取采集时刻距离当前时刻较近的至少一段语音信号,以提高确定的噪声的准确性。比如,将麦克风开始采集语音信号的时刻记为0,语音唤醒阈值动态仲裁模块当前时刻接收到的语音信号是150ms至180ms间采集到的语音信号,且预定时间间隔是30ms,则当需要获取一段语音信号时,语音唤醒阈值动态仲裁模块可以获取在120ms至150ms间采集到的语音信号;当需要获取三段语音信号时,语音唤醒阈值动态仲裁模块可以获取在60ms至150ms间采集到的语音信号。
由于语音唤醒阈值动态仲裁模块可以在接收到当前时刻采集的语音信号之前,就根据该至少一段语音信号确定车内的噪声,而不是在接收到当前时刻采集的语音信号之后确定车内的噪声,可以提早确定噪声,从而提早确定语音唤醒阈值,以提高语音唤醒的效率。
需要说明的是,在采用根据至少一段语音信号的平均分贝值确定车内的噪声的实现方式时,麦克风还可以将当前时刻采集到的语音信号发送给语音唤醒阈值动态仲裁模块,语音唤醒阈值动态仲裁模块确定该语音信号中的噪声,再将该噪声和该语音信号发送给语音识别模块,语音识别模块通过相关技术中的降噪方案对该语音信号进行降噪处理,再对降噪处理后的语音信号提取唤醒词,计算该唤醒词的声学得分,以提高声学得分的准确性。
可选的,步骤303还可以替换为:获取在语音信号之前采集到的至少一段语音信号,根据当前时刻采集的语音信号和至少一段语音信号的平均分贝值确定车内的噪声。
其中,在语音信号之前采集到的至少一段语音信号的描述详见上一种实现方式中的描述,此处不再赘述。
步骤304,根据当前时刻的车速确定车内的噪声,噪声的大小与车速的大小呈正相关关系。
由于车速越快,发动机噪声、路噪、胎噪、风噪、共鸣噪等噪声越大;车速越慢,发动机噪声、路噪、胎噪、风噪、共鸣噪等噪声越小,因此,电子设备还可以根据车速确定车内的噪声。在一种可能的实现方式中,电子设备中预设有车速与噪声之间的对应关系,电子设备在获取到车速后,根据该对应关系确定噪声。
电子设备获取车速的方式有很多种,比如,电子设备通过GPS获取时间段t内行驶的路程,并将该路程除以时间t得到车速;或者,电子设备中预设有测速仪,电子设备通过测速仪测量车速等等,本实施例不作限定。
步骤305,根据车内的噪声确定语音唤醒阈值,语音唤醒阈值的大小与噪声的大小呈负相关关系。
由于车内的噪声是动态变化的,因此,为了保证车内的噪声的准确性,电子设备可以在采集到语音信号时获取车内的噪声。
电子设备中设置有预定算法,电子设备根据预定算法和噪声计算语音唤醒阈值。其中,语音唤醒阈值与噪声的大小呈负相关关系,即,噪声越大,语音唤醒阈值越小;噪声越小,语音唤醒阈值越大。
在一种可能的实现方式中,噪声和语音唤醒阈值之间存在线性关系,此时,根据车内的噪声确定语音唤醒阈值,包括:获取预设的噪声区间和语音唤醒阈值区间,噪声区间中的每个数值对应于语音唤醒阈值区间中的一个数值;根据噪声在噪声区间中的数值,从语音唤醒阈值区间中选择一个对应的数值作为语音唤醒阈值。
比如,噪声区间为(20,100)dB,语音唤醒阈值区间为(10,50)分,且噪声区间中的数值除以2对应于语音唤醒阈值区间中的一个数值,则当噪声为60dB时,确定噪声在噪声区间中的数值为60,将60除以2得到的数值30作为语音唤醒阈值。
在另一种可能的实现方式中,噪声和语音唤醒阈值之间存在非线性关系,此时,电子设备可以根据非线性算法和噪声确定语音唤醒阈值,本实施例不作限定。
需要说明的是,本实施例不限定计算唤醒词的声学得分与确定语音唤醒阈值的先后执行顺序,即,本实施例不限定步骤302和步骤303-305的先后执行顺序。
步骤306,当声学得分大于语音唤醒阈值时,执行语音唤醒操作。
电子设备比较声学得分和语音唤醒阈值,当声学得分大于语音唤醒阈值时,电子设备执行语音唤醒操作;当声学得分小于语音唤醒阈值时,电子设备不执行语音唤醒操作,继续执行步骤301。
综上所述,本发明实施例提供的语音唤醒方法,电子设备计算唤醒词的声学得分,并将声学得分与语音唤醒阈值进行比较,根据比较结果确定是否执行语音操作,这样,即使语音信号中的噪声较大,只要该语音信号中的唤醒词的声学得分大于语音唤醒阈值,即可执行语音唤醒操作,从而提高语音唤醒的成功率。
电子设备根据车内的噪声确定语音唤醒阈值,使得噪声越大,语音唤醒阈值越低,从而提高语音唤醒的成功率;噪声越小,使得语音唤醒阈值越高,从而降低语音唤醒的误唤醒率。
当电子设备是车机时,由于不需要在车机中增加硬件降噪模块,因此,可以减少车机的成本;另外,由于不需要在车机中增加硬件降噪模块,因此,也就不需要对麦克风的电路进行调整,从而可以进一步减少车机的成本。
由于语音唤醒阈值动态仲裁模块可以在接收到当前时刻采集的语音信号之前,就根据该至少一段语音信号确定车内的噪声,而不是在接收到当前时刻采集的语音信号之后确定车内的噪声,可以提早确定噪声,从而提早确定语音唤醒阈值,以提高语音唤醒的效率。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对应本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参考图4,其示出了本发明一个实施例提供的语音唤醒装置的结构框图,该语音唤醒装置可以应用于包括图1所示的语音唤醒装置的电子设备中。该语音唤醒装置,包括:
采集模块410,用于采集当前时刻车内的语音信号;
计算模块420,用于计算从采集模块410得到的语音信号中提取的唤醒词的声学得分,声学得分用于指示唤醒词的真实性;
第一确定模块430,用于根据车内的噪声确定语音唤醒阈值,语音唤醒阈值的大小与噪声的大小呈负相关关系;
执行模块440,用于当计算模块420得到的声学得分大于第一确定模块430得到的语音唤醒阈值时,执行语音唤醒操作。
可选的,语音唤醒装置,还包括:
第二确定模块,用于在第一确定模块430根据车内的噪声确定语音唤醒阈值之前,根据语音信号的平均分贝值确定车内的噪声;或者,
第三确定模块,用于在第一确定模块430根据车内的噪声确定语音唤醒阈值之前,获取在语音信号之前采集到的至少一段语音信号,根据至少一段语音信号的平均分贝值确定车内的噪声;或者,
第四确定模块,用于在第一确定模块430根据车内的噪声确定语音唤醒阈值之前,获取在语音信号之前采集到的至少一段语音信号,根据当前时刻采集的语音信号和至少一段语音信号的平均分贝值确定车内的噪声。
可选的,语音唤醒装置,还包括:
第五确定模块,用于在第一确定模块430根据车内的噪声确定语音唤醒阈值之前,根据当前时刻的车速确定车内的噪声,噪声的大小与车速的大小呈正相关关系。
可选的,第一确定模块430,还用于:
获取预设的噪声区间和语音唤醒阈值区间,噪声区间中的每个数值对应于语音唤醒阈值区间中的一个数值;
根据噪声在噪声区间中的数值,从语音唤醒阈值区间中选择一个对应的数值作为语音唤醒阈值。
可选的,位于车内的电子设备是安装在车内的电子设备或位于车内的移动终端,安装在车内的电子设备是中控台或车机或智能后视镜。
综上所述,本发明实施例提供的语音唤醒装置,电子设备计算唤醒词的声学得分,并将声学得分与语音唤醒阈值进行比较,根据比较结果确定是否执行语音操作,这样,即使语音信号中的噪声较大,只要该语音信号中的唤醒词的声学得分大于语音唤醒阈值,即可执行语音唤醒操作,从而提高语音唤醒的成功率。
电子设备根据车内的噪声确定语音唤醒阈值,使得噪声越大,语音唤醒阈值越低,从而提高语音唤醒的成功率;噪声越小,使得语音唤醒阈值越高,从而降低语音唤醒的误唤醒率。
当电子设备是车机时,由于不需要在车机中增加硬件降噪模块,因此,可以减少车机的成本;另外,由于不需要在车机中增加硬件降噪模块,因此,也就不需要对麦克风的电路进行调整,从而可以进一步减少车机的成本。
由于语音唤醒阈值动态仲裁模块可以在接收到当前时刻采集的语音信号之前,就根据该至少一段语音信号确定车内的噪声,而不是在接收到当前时刻采集的语音信号之后确定车内的噪声,可以提早确定噪声,从而提早确定语音唤醒阈值,以提高语音唤醒的效率。
请参考图5,其示出了本发明一个实施例提供的电子设备500的框图,该电子设备可以包括射频(RF,Radio Frequency)电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、WiFi模块507、包括有一个或者一个以上处理核心的处理器509、以及电源509等部件。本领域技术人员可以理解,图5中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路501可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器509处理;另外,将涉及上行的数据发送给基站。通常,RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路501还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code DivisionMultiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short MessagingService)等。
存储器502可用于存储软件程序以及模块,处理器509通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据等)等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器508和输入单元503对存储器502的访问。
输入单元503可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元503可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器509,并能接收处理器508发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元503还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元504可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元504可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器508以确定触摸事件的类型,随后处理器508根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图5中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
电子设备还可包括至少一种传感器505,比如光传感器以及其他传感器。具体地,光传感器可包括环境光传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度。
音频电路506、扬声器,传声器可提供用户与电子设备之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路506接收后转换为音频数据,再将音频数据输出处理器509处理后,经RF电路501以发送给比如另一电子设备,或者将音频数据输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔,以提供外设耳机与电子设备的通信。
虽然图5示出了WiFi模块507,但是可以理解的是,其并不属于电子设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器508是电子设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行电子设备的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器508可包括一个或多个处理核心;优选的,处理器508可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器508中。
电子设备还包括给各个部件供电的电源509(比如电池),优选的,电源可以通过电源管理系统与处理器508逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器508会运行存储在存储器502中的一个或一个以上的程序指令,从而实现上述各个方法实施例中所提供的语音唤醒方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
需要说明的是:上述实施例提供的语音唤醒装置在进行语音唤醒时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将语音唤醒装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音唤醒装置与语音唤醒方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音唤醒方法,用于位于车内的电子设备中,其特征在于,所述方法包括:
采集当前时刻车内的语音信号;
计算从所述语音信号中提取的唤醒词的声学得分,所述声学得分用于指示所述唤醒词的真实性;
根据车内的噪声确定语音唤醒阈值,所述语音唤醒阈值的大小与所述噪声的大小呈负相关关系;
当所述声学得分大于所述语音唤醒阈值时,执行语音唤醒操作。
2.根据权利要求1所述的方法,其特征在于,在所述根据车内的噪声确定语音唤醒阈值之前,还包括:
根据所述语音信号的平均分贝值确定车内的噪声;或者,
获取在所述语音信号之前采集到的至少一段语音信号,根据所述至少一段语音信号的平均分贝值确定车内的噪声;或者,
获取在所述语音信号之前采集到的至少一段语音信号,根据当前时刻采集的所述语音信号和所述至少一段语音信号的平均分贝值确定车内的噪声。
3.根据权利要求1所述的方法,其特征在于,在所述根据车内的噪声确定语音唤醒阈值之前,还包括:
根据当前时刻的车速确定车内的噪声,所述噪声的大小与所述车速的大小呈正相关关系。
4.根据权利要求1至3任一所述的方法,其特征在于,所述根据车内的噪声确定语音唤醒阈值,包括:
获取预设的噪声区间和语音唤醒阈值区间,所述噪声区间中的每个数值对应于所述语音唤醒阈值区间中的一个数值;
根据所述噪声在所述噪声区间中的数值,从所述语音唤醒阈值区间中选择一个对应的数值作为所述语音唤醒阈值。
5.根据权利要求1所述的方法,其特征在于,所述位于车内的电子设备是安装在车内的电子设备或位于车内的移动终端,所述安装在车内的电子设备是中控台或车机或智能后视镜。
6.一种语音唤醒装置,用于位于车内的电子设备中,其特征在于,所述装置包括:
采集模块,用于采集当前时刻车内的语音信号;
计算模块,用于计算从所述采集模块得到的所述语音信号中提取的唤醒词的声学得分,所述声学得分用于指示所述唤醒词的真实性;
第一确定模块,用于根据车内的噪声确定语音唤醒阈值,所述语音唤醒阈值的大小与所述噪声的大小呈负相关关系;
执行模块,用于当所述计算模块得到的所述声学得分大于所述第一确定模块得到的所述语音唤醒阈值时,执行语音唤醒操作。
7.根据权利要求6所述的装置,其特征在于,所述装置,还包括:
第二确定模块,用于在所述第一确定模块根据车内的噪声确定语音唤醒阈值之前,根据所述语音信号的平均分贝值确定车内的噪声;或者,
第三确定模块,用于在所述第一确定模块根据车内的噪声确定语音唤醒阈值之前,获取在所述语音信号之前采集到的至少一段语音信号,根据所述至少一段语音信号的平均分贝值确定车内的噪声;或者,
第四确定模块,用于在所述第一确定模块根据车内的噪声确定语音唤醒阈值之前,获取在所述语音信号之前采集到的至少一段语音信号,根据当前时刻采集的所述语音信号和所述至少一段语音信号的平均分贝值确定车内的噪声。
8.根据权利要求6所述的装置,其特征在于,所述装置,还包括:
第五确定模块,用于在所述第一确定模块根据车内的噪声确定语音唤醒阈值之前,根据当前时刻的车速确定车内的噪声,所述噪声的大小与所述车速的大小呈正相关关系。
9.根据权利要求6至8任一所述的装置,其特征在于,所述第一确定模块,还用于:
获取预设的噪声区间和语音唤醒阈值区间,所述噪声区间中的每个数值对应于所述语音唤醒阈值区间中的一个数值;
根据所述噪声在所述噪声区间中的数值,从所述语音唤醒阈值区间中选择一个对应的数值作为所述语音唤醒阈值。
10.根据权利要求6所述的装置,其特征在于,所述位于车内的电子设备安装在车内的电子设备或位于车内的移动终端,所述安装在车内的电子设备是中控台或是车机或智能后视镜。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710084311.4A CN108447472B (zh) | 2017-02-16 | 2017-02-16 | 语音唤醒方法及装置 |
PCT/CN2018/074312 WO2018149285A1 (zh) | 2017-02-16 | 2018-01-26 | 语音唤醒方法、装置、电子设备及存储介质 |
US16/419,924 US11069343B2 (en) | 2017-02-16 | 2019-05-22 | Voice activation method, apparatus, electronic device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710084311.4A CN108447472B (zh) | 2017-02-16 | 2017-02-16 | 语音唤醒方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108447472A true CN108447472A (zh) | 2018-08-24 |
CN108447472B CN108447472B (zh) | 2022-04-05 |
Family
ID=63169686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710084311.4A Active CN108447472B (zh) | 2017-02-16 | 2017-02-16 | 语音唤醒方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11069343B2 (zh) |
CN (1) | CN108447472B (zh) |
WO (1) | WO2018149285A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065060A (zh) * | 2018-10-23 | 2018-12-21 | 维沃移动通信有限公司 | 一种语音唤醒方法及终端 |
CN109256134A (zh) * | 2018-11-22 | 2019-01-22 | 深圳市同行者科技有限公司 | 一种语音唤醒方法、存储介质及终端 |
CN109461446A (zh) * | 2018-12-24 | 2019-03-12 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
CN110119083A (zh) * | 2019-04-17 | 2019-08-13 | 惠州市惠泽电器有限公司 | 智能手表的唤醒方法 |
CN110248267A (zh) * | 2019-06-14 | 2019-09-17 | 安徽奥飞声学科技有限公司 | 一种唤醒装置及电子设备 |
CN110534099A (zh) * | 2019-09-03 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
CN110525450A (zh) * | 2019-09-06 | 2019-12-03 | 浙江吉利汽车研究院有限公司 | 一种调节车载语音灵敏度的方法及系统 |
CN110808030A (zh) * | 2019-11-22 | 2020-02-18 | 珠海格力电器股份有限公司 | 语音唤醒方法、系统、存储介质及电子设备 |
CN111261143A (zh) * | 2018-12-03 | 2020-06-09 | 杭州嘉楠耘智信息科技有限公司 | 一种语音唤醒方法、装置及计算机可读存储介质 |
CN111276142A (zh) * | 2020-01-20 | 2020-06-12 | 北京声智科技有限公司 | 一种语音唤醒方法及电子设备 |
CN112365883A (zh) * | 2020-10-29 | 2021-02-12 | 安徽江淮汽车集团股份有限公司 | 座舱系统语音识别测试方法、装置、设备及存储介质 |
CN112581960A (zh) * | 2020-12-18 | 2021-03-30 | 北京百度网讯科技有限公司 | 语音唤醒方法、装置、电子设备及可读存储介质 |
CN114187904A (zh) * | 2020-08-25 | 2022-03-15 | 广州华凌制冷设备有限公司 | 相似度阈值获取方法、语音家电及计算机可读存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11232788B2 (en) * | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
CN110288991B (zh) * | 2019-06-18 | 2022-02-18 | 北京梧桐车联科技有限责任公司 | 语音识别方法及装置 |
CN111625094B (zh) * | 2020-05-25 | 2023-07-14 | 阿波罗智联(北京)科技有限公司 | 智能后视镜的交互方法、装置、电子设备和存储介质 |
CN111645521B (zh) * | 2020-05-29 | 2022-01-18 | 阿波罗智联(北京)科技有限公司 | 用于智能后视镜的控制方法、装置、电子设备和存储介质 |
CN113138737B (zh) * | 2021-04-16 | 2023-11-03 | 阿波罗智联(北京)科技有限公司 | 投屏场景的显示控制方法、装置、设备、介质及程序产品 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120487A1 (en) * | 2001-12-20 | 2003-06-26 | Hitachi, Ltd. | Dynamic adjustment of noise separation in data handling, particularly voice activation |
US20060149541A1 (en) * | 2005-01-03 | 2006-07-06 | Aai Corporation | System and method for implementing real-time adaptive threshold triggering in acoustic detection systems |
CN102001324A (zh) * | 2010-10-27 | 2011-04-06 | 惠州Tcl移动通信有限公司 | 一种汽车防盗报警装置及方法 |
CN102194452A (zh) * | 2011-04-14 | 2011-09-21 | 西安烽火电子科技有限责任公司 | 复杂背景噪声中的语音激活检测方法 |
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
CN103905474A (zh) * | 2012-12-25 | 2014-07-02 | 腾讯数码(天津)有限公司 | 一种信息共享方法、终端、服务器及系统 |
US20140278389A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics |
CN105157815A (zh) * | 2015-08-17 | 2015-12-16 | 东北大学 | 一种用于多方向测试高铁噪声的mems传声器及方法 |
CN105280195A (zh) * | 2015-11-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法及装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6397186B1 (en) * | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
GB2417812B (en) | 2003-05-08 | 2007-04-18 | Voice Signal Technologies Inc | A signal-to-noise mediated speech recognition algorithm |
US7567900B2 (en) * | 2003-06-11 | 2009-07-28 | Panasonic Corporation | Harmonic structure based acoustic speech interval detection method and device |
US8577677B2 (en) * | 2008-07-21 | 2013-11-05 | Samsung Electronics Co., Ltd. | Sound source separation method and system using beamforming technique |
TWI406266B (zh) * | 2011-06-03 | 2013-08-21 | Univ Nat Chiao Tung | 語音辨識裝置及其辨識方法 |
DE212014000045U1 (de) * | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US10297250B1 (en) * | 2013-03-11 | 2019-05-21 | Amazon Technologies, Inc. | Asynchronous transfer of audio data |
US10424292B1 (en) * | 2013-03-14 | 2019-09-24 | Amazon Technologies, Inc. | System for recognizing and responding to environmental noises |
WO2015048254A1 (en) * | 2013-09-25 | 2015-04-02 | Robert Bosch Gmbh | Speech detection circuit and method |
US9899021B1 (en) * | 2013-12-20 | 2018-02-20 | Amazon Technologies, Inc. | Stochastic modeling of user interactions with a detection system |
KR102018152B1 (ko) * | 2014-03-31 | 2019-09-04 | 인텔 코포레이션 | 항상-온-항상-청취 음성 인식 시스템을 위한 위치 인식 전력 관리 스킴 |
US20150302856A1 (en) * | 2014-04-17 | 2015-10-22 | Qualcomm Incorporated | Method and apparatus for performing function by speech input |
US10789041B2 (en) * | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
CN106254612A (zh) * | 2015-06-15 | 2016-12-21 | 中兴通讯股份有限公司 | 一种语音控制方法及装置 |
CN105096939B (zh) * | 2015-07-08 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN105261368B (zh) * | 2015-08-31 | 2019-05-21 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
US9792907B2 (en) * | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US10037313B2 (en) * | 2016-03-24 | 2018-07-31 | Google Llc | Automatic smoothed captioning of non-speech sounds from audio |
US10504538B2 (en) * | 2017-06-01 | 2019-12-10 | Sorenson Ip Holdings, Llc | Noise reduction by application of two thresholds in each frequency band in audio signals |
CN111357048A (zh) * | 2017-12-31 | 2020-06-30 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
WO2019128541A1 (en) * | 2017-12-31 | 2019-07-04 | Midea Group Co., Ltd. | Method and system for controlling multiple home devices |
-
2017
- 2017-02-16 CN CN201710084311.4A patent/CN108447472B/zh active Active
-
2018
- 2018-01-26 WO PCT/CN2018/074312 patent/WO2018149285A1/zh active Application Filing
-
2019
- 2019-05-22 US US16/419,924 patent/US11069343B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120487A1 (en) * | 2001-12-20 | 2003-06-26 | Hitachi, Ltd. | Dynamic adjustment of noise separation in data handling, particularly voice activation |
US20060149541A1 (en) * | 2005-01-03 | 2006-07-06 | Aai Corporation | System and method for implementing real-time adaptive threshold triggering in acoustic detection systems |
CN102001324A (zh) * | 2010-10-27 | 2011-04-06 | 惠州Tcl移动通信有限公司 | 一种汽车防盗报警装置及方法 |
CN102194452A (zh) * | 2011-04-14 | 2011-09-21 | 西安烽火电子科技有限责任公司 | 复杂背景噪声中的语音激活检测方法 |
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
CN103905474A (zh) * | 2012-12-25 | 2014-07-02 | 腾讯数码(天津)有限公司 | 一种信息共享方法、终端、服务器及系统 |
US20140278389A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics |
CN105157815A (zh) * | 2015-08-17 | 2015-12-16 | 东北大学 | 一种用于多方向测试高铁噪声的mems传声器及方法 |
CN105280195A (zh) * | 2015-11-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法及装置 |
Non-Patent Citations (2)
Title |
---|
V.Z. KËPUSKA,等: "A novel Wake-Up-Word speech recognition system, Wake-Up-Word recognition task, technology and evaluation", 《NONLINEAR ANALYSIS》 * |
林娟,等: "一种强背景噪声下语音识别方案", 《声学与电子工祖》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065060A (zh) * | 2018-10-23 | 2018-12-21 | 维沃移动通信有限公司 | 一种语音唤醒方法及终端 |
CN109065060B (zh) * | 2018-10-23 | 2021-05-07 | 维沃移动通信有限公司 | 一种语音唤醒方法及终端 |
CN109256134A (zh) * | 2018-11-22 | 2019-01-22 | 深圳市同行者科技有限公司 | 一种语音唤醒方法、存储介质及终端 |
CN109256134B (zh) * | 2018-11-22 | 2021-11-02 | 深圳市同行者科技有限公司 | 一种语音唤醒方法、存储介质及终端 |
CN111261143A (zh) * | 2018-12-03 | 2020-06-09 | 杭州嘉楠耘智信息科技有限公司 | 一种语音唤醒方法、装置及计算机可读存储介质 |
CN111261143B (zh) * | 2018-12-03 | 2024-03-22 | 嘉楠明芯(北京)科技有限公司 | 一种语音唤醒方法、装置及计算机可读存储介质 |
CN109461446A (zh) * | 2018-12-24 | 2019-03-12 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
CN110119083A (zh) * | 2019-04-17 | 2019-08-13 | 惠州市惠泽电器有限公司 | 智能手表的唤醒方法 |
CN110248267A (zh) * | 2019-06-14 | 2019-09-17 | 安徽奥飞声学科技有限公司 | 一种唤醒装置及电子设备 |
CN110534099A (zh) * | 2019-09-03 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
CN110525450A (zh) * | 2019-09-06 | 2019-12-03 | 浙江吉利汽车研究院有限公司 | 一种调节车载语音灵敏度的方法及系统 |
CN110808030A (zh) * | 2019-11-22 | 2020-02-18 | 珠海格力电器股份有限公司 | 语音唤醒方法、系统、存储介质及电子设备 |
CN111276142A (zh) * | 2020-01-20 | 2020-06-12 | 北京声智科技有限公司 | 一种语音唤醒方法及电子设备 |
CN111276142B (zh) * | 2020-01-20 | 2023-04-07 | 北京声智科技有限公司 | 一种语音唤醒方法及电子设备 |
CN114187904A (zh) * | 2020-08-25 | 2022-03-15 | 广州华凌制冷设备有限公司 | 相似度阈值获取方法、语音家电及计算机可读存储介质 |
CN112365883B (zh) * | 2020-10-29 | 2023-12-26 | 安徽江淮汽车集团股份有限公司 | 座舱系统语音识别测试方法、装置、设备及存储介质 |
CN112365883A (zh) * | 2020-10-29 | 2021-02-12 | 安徽江淮汽车集团股份有限公司 | 座舱系统语音识别测试方法、装置、设备及存储介质 |
CN112581960A (zh) * | 2020-12-18 | 2021-03-30 | 北京百度网讯科技有限公司 | 语音唤醒方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11069343B2 (en) | 2021-07-20 |
WO2018149285A1 (zh) | 2018-08-23 |
CN108447472B (zh) | 2022-04-05 |
US20190272820A1 (en) | 2019-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447472A (zh) | 语音唤醒方法及装置 | |
CN106020782B (zh) | 一种指纹解锁控制方法、及移动终端 | |
KR101978590B1 (ko) | 메시지 업데이팅 방법, 장치 및 단말 | |
EP3306865A1 (en) | Communication message sending method and device | |
CN108665678A (zh) | 一种请求救援的方法和装置 | |
CN105739699B (zh) | 一种消息提示的控制方法及终端设备 | |
CN104536978A (zh) | 识别语音数据的方法和装置 | |
CN103400508A (zh) | 一种输出车位引导信息的方法、装置和终端 | |
CN103813127B (zh) | 一种视频通话方法、终端及系统 | |
CN106022060B (zh) | 一种指纹解锁控制方法、及设备 | |
CN105606117A (zh) | 导航提示方法及装置 | |
CN106126675A (zh) | 一种推荐音频的方法、装置及系统 | |
CN108072368B (zh) | 导航方法及装置 | |
CN109583271A (zh) | 一种对车道线进行拟合的方法、装置及终端 | |
CN106603548A (zh) | 应用程序的登录方法及移动终端 | |
CN106127829A (zh) | 一种增强现实的处理方法、装置及终端 | |
CN108958606A (zh) | 分屏显示方法、装置、存储介质和电子设备 | |
CN108347758A (zh) | 屏幕唤醒方法和装置、终端、计算机可读存储介质 | |
CN109067981A (zh) | 分屏应用切换方法、装置、存储介质和电子设备 | |
CN105526944B (zh) | 信息提示方法及装置 | |
CN106940997A (zh) | 一种向语音识别系统发送语音信号的方法和装置 | |
CN106200970A (zh) | 一种分屏显示的方法及终端 | |
CN106055237B (zh) | 一种滑动加速响应方法、及设备 | |
CN107817988A (zh) | 推送消息的管理方法及相关产品 | |
CN106356071A (zh) | 一种噪声检测方法,及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |