CN111880856A - 语音唤醒方法、装置、电子设备及存储介质 - Google Patents
语音唤醒方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111880856A CN111880856A CN202010761008.5A CN202010761008A CN111880856A CN 111880856 A CN111880856 A CN 111880856A CN 202010761008 A CN202010761008 A CN 202010761008A CN 111880856 A CN111880856 A CN 111880856A
- Authority
- CN
- China
- Prior art keywords
- awakening
- threshold
- audio
- behavior data
- user behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000006399 behavior Effects 0.000 claims description 150
- 238000001514 detection method Methods 0.000 claims description 113
- 238000012549 training Methods 0.000 claims description 26
- 230000002618 waking effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 abstract description 10
- 238000004422 calculation algorithm Methods 0.000 description 35
- 230000008569 process Effects 0.000 description 14
- 238000003062 neural network model Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Electric Clocks (AREA)
Abstract
本申请公开了一种语音唤醒方法、装置、电子设备及存储介质,涉及数据处理技术领域。其中,该方法包括:接收到目标音频时,计算所述目标音频与唤醒音频的匹配度;根据当前时间对应的用户行为数据确定阈值权重,其中,所述阈值权重小于1或等于1,所述当前时间对应的用户行为数据表明用户进行唤醒操作的概率越高,所述阈值权重越小;计算预设阈值与阈值权重的乘积,获得当前阈值;若所述匹配度大于所述当前阈值,执行所述唤醒音频对应的唤醒操作。该方案根据用户行为数据动态调整阈值,提高了唤醒率,降低了误唤醒率。
Description
技术领域
本申请涉及数据处理技术领域,更具体地,涉及一种语音唤醒方法、装置、电子设备及存储介质。
背景技术
电子设备可以基于唤醒词进行唤醒。但是,在通过唤醒词进行唤醒时,实现高唤醒率的情况下误唤醒率通常过高,而若误唤醒率低,则唤醒率也会过低,导致用户唤醒体验不佳。
发明内容
鉴于上述问题,本申请提出了一种语音唤醒方法、装置、电子设备及存储介质,以改善上述问题。
第一方面,本申请实施例提供了一种语音唤醒方法,所述方法包括:接收到目标音频时,计算所述目标音频与唤醒音频的匹配度;根据当前时间对应的用户行为数据确定阈值权重,其中,所述阈值权重小于1或等于1,所述当前时间对应的用户行为数据表明的用户进行唤醒操作的概率越高,所述阈值权重越小;计算预设阈值与阈值权重的乘积,获得当前阈值,所述预设阈值为配置的用于与所述匹配度比较的阈值;若所述匹配度大于所述当前阈值,执行所述唤醒音频对应的唤醒操作。
第二方面,本申请实施例提供了一种语音唤醒装置,所述装置包括:匹配度计算模块,用于接收到目标音频时,计算所述目标音频与唤醒音频的匹配度;阈值权重计算模块,用于根据当前时间对应的用户行为数据确定阈值权重,其中,所述阈值权重小于1或等于1,所述当前时间对应的用户行为数据表明的用户进行唤醒操作的概率越高,所述阈值权重越小;阈值计算模块,用于计算预设阈值与阈值权重的乘积,获得当前阈值,所述预设阈值为配置的用于与所述匹配度比较的阈值;唤醒模块,用于若所述匹配度大于所述当前阈值,执行所述唤醒音频对应的唤醒操作。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被所述处理器执行用于执行上述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述的方法。
本申请实施例提供的语音唤醒方法、装置、电子设备及存储介质,接收到目标音频时,计算目标音频与唤醒音频的匹配度,并根据接收到目标音频所在时间对应的用户行为数据确定阈值权重,将阈值权重与预设阈值相乘获得当前阈值。其中,该用户行为数据表明的用户进行唤醒操作的概率越高,阈值权重越小,通过阈值权重对预设阈值降低得到的当前阈值越小,匹配度与预设阈值降低后的当前阈值比较,匹配度大于当前阈值的概率越高,执行唤醒音频对应的唤醒操作的概率越高。因此,本申请实施例提供的方案中,根据用户行为数据所表示的用户进行唤醒操作的概率高低,动态降低与匹配度比较的预设阈值,获得与匹配度进行比较的当前阈值,用户进行唤醒操作的概率越高,唤醒通过的概率越高;用户进行唤醒操作的概率越低,唤醒通过的概率越低,从而提高了唤醒率,降低了误唤醒率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的语音唤醒方法的流程图。
图2示出了本申请另一实施例提供的语音唤醒方法的流程图。
图3示出了本申请实施例提供的语音唤醒装置的功能模块图。
图4示出了本申请实施例提供的唤醒交互示意图。
图5示出了本申请实施例提供的电子设备的结构框图。
图6是本申请实施例的用于保存或者携带实现根据本申请实施例的方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
语音唤醒的应用领域较广,配置有语音唤醒功能的智能设备,可以作为本申请实施例中的电子设备,如手机、电脑、机器人、智能穿戴设备、智能家居以及车站设备。对电子设备的语音唤醒,电子设备执行唤醒操作,可以是唤醒电子设备的工作状态,如通过唤醒使电子设备从待机状态切换为工作状态;也可以是唤醒电子设备的某些功能,如唤醒电子设备的语音助手等。
当进行唤醒时,用户说出唤醒词,电子设备接收到用户语音并识别出为由用户说出的唤醒词时,可以判定为接收到唤醒音频,进行相应的唤醒。
其中,电子设备在识别接收到的音频是否为唤醒音频时,可以将接收到的音频进行处理后与唤醒音频进行匹配,获取匹配度。预先配置与匹配度比较的阈值,定义为预设阈值,根据该匹配度与预设阈值的大小确定是否接收到唤醒指令,是否执行唤醒操作。若匹配度大于预设阈值,说明接收到与唤醒音频接近度高的音频,可以确定接收到唤醒指令,执行唤醒操作;若匹配度小于或等于预设阈值,说明接收到与唤醒音频接近度较低的音频,可以确定接收到的不是唤醒指令,不执行唤醒操作。
但是,若该预设阈值若设置得过高,匹配度要大于预设阈值的可能性则较低,即使是用户说出唤醒词,也可能因噪音问题、口音问题等获得较低的匹配度导致唤醒失败,唤醒率较低;而若预设阈值设置得过低,即使接收到的音频中不包括唤醒词,但是可能与唤醒音频具有一定的相似度,获得的较低的匹配度也比预设阈值高,导致识别为接收到唤醒指令,导致误识别,提高了误识别率。其中,唤醒率可以表示接收到唤醒音频并识别出唤醒音频,执行对应唤醒操作的次数,与实际接收到唤醒音频的总次数的比值;误唤醒率可以表示,接收到的语音信号为非唤醒音频却执行唤醒操作的次数,与接收到的语音信号为非唤醒音频的总次数。
为了有效提高唤醒率,并且可以降低误唤醒率,本申请实施例提出了的语音唤醒方法、装置、电子设备及存储介质,根据用户行为数据确定阈值权重,并且在用户行为数据表明用户进行唤醒操作的概率越高的情况下,设置越小的且小于或等于1的阈值权重。通过该阈值权重对预设阈值进行降低,以降低后的值作为判断是否唤醒的标准。具体可以通过该阈值权重与预设阈值的乘积获取当前阈值,将匹配度与当前阈值进行比较,匹配度大于当前阈值,则可以执行所述唤醒音频对应的唤醒操作,从而根据用户行为数据动态调整当前阈值,用户进行唤醒操作的概率越高,当前阈值越低,匹配度大于当前阈值的可能性就越大,提高了唤醒率,且降低了误唤醒率。下面将通过具体实施例对本申请实施例提供的语音唤醒方法、装置、电子设备及存储介质进行详细说明。
请参阅图1,示出了本申请实施例提供的语音唤醒方法。具体的,该方法包括:
步骤S110:接收到目标音频时,计算所述目标音频与唤醒音频的匹配度。
在本申请实施例中,接收到的目标音频可以为具有进行唤醒操作可能性的音频,唤醒音频可以为可以实现唤醒操作的音频。接收到目标音频时,可以计算目标音频与唤醒音频的匹配度,以确定该目标音频是否为唤醒音频,是否进行唤醒操作。
步骤S120:根据当前时间对应的用户行为数据确定阈值权重。其中,所述阈值权重小于1或等于1,所述当前时间对应的用户行为数据表明的用户进行唤醒操作的概率越高,所述阈值权重越小。
用户行为数据为表现用户对电子设备的语音唤醒的使用习惯的数据,不同时间对应的使用习惯不同,因此,在不同时间接收到目标音频时,可以获取其所在时间对应的用户行为数据。
该用户行为数据用于预测用户进行唤醒操作的概率。由于通过预设阈值与匹配度比较进行是否唤醒的判断时,与匹配度进行比较的预设阈值越小,匹配通过的概率越高;而用户行为数据表明唤醒操作的概率越高,用户越可能在进行唤醒操作,需要匹配通过的概率越高。而匹配是否通过,与匹配度是否大于预设阈值相关,匹配度大于预设阈值,则匹配通过;匹配度不大于预设阈值,则匹配不通过,不会进行唤醒,不执行唤醒对应的操作。该预设阈值为预先配置的用于与所述匹配度比较的值,大于预设阈值表示匹配度较高,可以确定为匹配通过;小于或等于预设阈值表示匹配度过低,确定匹配不通过。该预设阈值可以是与匹配度表现形式相同的值,即匹配度为百分数形式,预设阈值也可以为百分数形式;匹配度为小数形式,预设阈值也可以为小数形式等。
因此,可以是用户行为数据表明唤醒操作的概率越高,对预设阈值进行越多的降低,以降低后的预设阈值与匹配度进行比较。从而可以设置一个对预设阈值进行降低或者至少保持不变的阈值权重,该阈值权重小于或等于1,小于1表示对预设阈值进行降低,等于1表示保持预设阈值不变。并且,可以用户行为数据表明的唤醒操作的概率越高,设置一个越小的阈值权重,对预设阈值进行更多的降低,以对匹配通过的概率进行越高的提升。
步骤S130:计算预设阈值与阈值权重的乘积,获得当前阈值。
将阈值权重与预设阈值相乘,实现通过阈值权重在预设阈值的基础上进行不同程度的降低,并定义降低后获得的值为当前阈值。即将预设阈值与阈值权重相乘后获得的乘积,作为当前阈值。
步骤S140:若所述匹配度大于所述当前阈值,执行所述唤醒音频对应的唤醒操作。
该当前阈值为对预设阈值进行降低后的值,用于与匹配度进行比较。若匹配度大于当前阈值,可以判定匹配通过,可以执行与唤醒音频对应的唤醒操作。
本申请实施例提供的语音唤醒方法,根据接收到目标音频的时间对应的用户行为数据确定小于或等于1的阈值权重的具体值,且用户行为数据表明的用户进行唤醒操作的概率越高,所述阈值权重越小。通过阈值权重与预设阈值相乘获得当前阈值,实现获取到预设阈值进行降低后的值。将目标音频与唤醒音频之间的匹配度与该当前阈值进行比较,匹配度大于当前阈值确定匹配通过,从而实现根据用户行为数据动态调整与匹配度比较的当前阈值,用户进行唤醒操作概率越高,匹配通过的概率越高;用户进行唤醒操作的概率越低,匹配通过的概率越低,提高了唤醒率,降低了误唤醒率。
本申请另一实施例提供的语音唤醒方法,描述了权重阈值的具体确定方式。如图2所示,该语音唤醒方法包括:
步骤S210:接收到目标音频时,计算所述目标音频与唤醒音频的匹配度。
如前所述,目标音频为可能进行唤醒操作的音频,需要进一步确定该目标音频是否为进行唤醒操作的音频,即需要确定该目标音频是否为唤醒音频。
在一种实施方式中,可以是,从接收到的音频中获取语音信号,并将该语音信号作为目标音频,确定与唤醒音频的匹配度。
其中,音频中的语音信号为包括有说话内容的音频段,该说话内容可能为唤醒词,因此,可以从接收的音频中确定出语音信号。由于语音信号相对非语音信号而言,具有不同的特征,从而可以根据不同的特征从音频中区分出语音信号以及非语音信号。例如,语音信号比非语音信号具有更高的能量以及更低的过零率,可以通过能量阈值、过零率阈值等一种或多种特征将语音信号以及非语音信号区分开来。
可选的,在本申请实施例中,可以通过语音检测算法从采集的音频中确定语音信号。例如,通过语音检测算法对接收的音频进行语音检测,从而确定其中哪些音频段为语音信号。具体的语音检测算法在本申请实施例中并不限定,例如可以是基于过零率的端点检测算法、基于能量双门限的端点检测方法、基于倒谱特征的端点检测算法,可以是带通数字滤波器等。
从接收到的音频中提取出语音信号作为目标音频,与唤醒音频进行匹配。
在该实施方式中,唤醒音频为可以实现对电子设备的唤醒的音频。本申请实施例中,用于与目标音频进行匹配的唤醒音频可以是用户预先输入并存储的、可以实现唤醒的音频,如包括唤醒词的音频。目标音频与唤醒音频的匹配可以基于声音的特征进行匹配,如基于声音波形特征的匹配、基于声音频率特征的匹配等。具体可以通过声音匹配算法实现,如vector算法,hmm算法、cnn算法、fsmn算法、dnn算法、lstm算法等。
另外,可选的,预先设置的唤醒音频可以具有一定的时间长度,在获取目标音频时,也可以获取与唤醒音频具有相同时间长度的语音信号,作为目标音频。
可选的,在本申请实施例中,目标音频与唤醒音频之间的匹配,可以为语音内容的匹配,即获取目标音频中的语音内容与唤醒音频中的语音内容的匹配度。具体匹配方式可以通过相应的算法实现。例如,通过神经网络算法的训练,获取用于匹配的神经网络模型。在训练时,获得的各个训练样本中,由唤醒词的音频内容作为正样本,正样本可以是具有不同声纹特征的不同人员输入;而负样本为不包括完整唤醒词的音频。将训练样本输入待训练的神经网络模型进行训练。其中,正样本为正样本的概率真值为1,负样本为正样本的概率真值为0,在训练过程中,以正样本为输入时,不断调整各个参数,使正样本对应的输出概率值朝1靠近;在训练过程中,以负样本为输入时,不断调整各个参数,使负样本对应的输出概率值朝0靠近。各个正样本可以作为唤醒音频,通过训练后的神经网络模型获取目标音频与唤醒音频的匹配度时,将目标音频输入该神经网络模型,该神经网络模型输出的该目标音频为唤醒音频的概率值,作为目标音频与唤醒音频的匹配度。
由于不同个体的声纹特征具有差异,可以通过声纹特征的匹配确定是否为目标用户在进行唤醒。可选的,本申请实施例中,本步骤的目标音频与唤醒音频之间的匹配,可以为声纹特征的匹配。在此之前,可以先对目标音频与唤醒音频的语音内容进行匹配,在其匹配度大于设置的匹配度阈值时,将目标音频与唤醒音频再进行声纹特征的匹配。具体的,该与目标音频匹配的唤醒音频可以是目标用户录入的音频,目标用户为对电子设备具有唤醒权限的用户。在该实施方式中,可以基于唤醒音频获得目标用户的声纹库,基于声纹识别算法,对目标音频与唤醒音频之间的匹配度进行获取。具体的声纹识别算法在本申请实施例中并不限定,如iVector算法,PLDA算法,dnn算法等。
在另一种实施方式中,目标音频与唤醒音频之间的内容匹配可以是多级匹配,本申请以二级匹配为例。在接收到目标音频时,计算所述目标音频与唤醒音频的匹配度,可以包括:接收到语音信号时,将持续接收到的音频分音频段进行一级唤醒检测;若有音频段满足一级唤醒检测的唤醒条件,以所述满足一级唤醒检测的唤醒条件的音频段作为目标音频,对所述目标音频进行二级唤醒检测,所述二级唤醒检测的功耗高于所述一级唤醒检测,所述二级唤醒检测的通过率高于所述一级唤醒检测;若所述目标音频满足所述二级唤醒检测的唤醒条件,将所述目标音频的声纹与唤醒音频的声纹进行匹配,获取匹配度。
具体的,电子设备可以对接收到的音频进行语音检测,在检测到有语音信号时,开始进行一级唤醒检测。该一级唤醒检测为检测范围较宽的检测算法,以避免遗漏用户的唤醒语音。具体的,可以是,响应于接收到语音信号,将后续持续接收到的音频分为多个音频段,并输入进行一级唤醒检测。例如,持续接收到的音频中,每20毫秒作为一个音频段,进行一级唤醒检测。可选的,一次可以输入多个音频段进行检测,降低处理功耗,如一次输入1秒中的各个音频段进行一级唤醒检测。
其中,一级唤醒检测由于被触发的频率较高,可以具有较低的功耗,一级唤醒检测的功耗可以低于二级唤醒检测的功耗。
在降低功耗的同时,通常会牺牲检测的准确率,使唤醒检测的准确率较低。准确率表示准确识别到接收到的语音数据为唤醒音频还是非唤醒音频。较低的准确率表示,将接收到的实际为唤醒音频的语音数据识别为唤醒音频的可能性较低;而将非唤醒音频识别为唤醒音频的可能性较高。因此,在一级唤醒检测之后可以设置准确率更高的二级唤醒检测。二级唤醒检测的准确率更高,通常功耗也更高,可以在一级唤醒检测通过后再启用二级唤醒检测,若一级唤醒检测未通过,则不进入下一步的二级唤醒检测。可选的,在本实施方式中,若有音频段通过一级唤醒检测,可以将该音频段作为二级唤醒检测的输入,即可以将满足一级唤醒检测的唤醒条件的音频段作为二级唤醒检测的输入。
可选的,在该实施方式中,为了提高二级唤醒检测的准确率,在一级唤醒检测通过后,可以从通过一级唤醒检测的音频段中确定包括唤醒词的音频段,以该包括唤醒词的音频段作为二级唤醒检测的输入。具体的方式在本申请实施例中并限定,如从通过一级唤醒检测的音频段中选取预设时间长度的音频段,从通过一级唤醒检测的音频段中确定语音信号,从语音信号的中点向前后选取同等时间长度,获得预设时间长度的音频段等。该预设时间长度可以是说出唤醒词通常所需时间长度。
在本申请实施例中,二级唤醒检测输入的音频段可以确定为目标音频。判断该目标音频是否满足二级唤醒检测的唤醒条件。
在本申请实施例中,二级唤醒检测准确率更高,一级唤醒检测的检测范围更宽。二级唤醒检测相比一级唤醒检测,参数可以更多,更为复杂。
可选的,该一级唤醒检测以及二级唤醒检测可以通过神经网络模型实现,一级唤醒检测的参数比二级唤醒检测的参数更少,更简单,层数更少。对应的二级唤醒检测的检测算法具有更多的空间占用以及更大的功耗。
其中,根据一级唤醒检测以及二级唤醒检测的特点,可以设置相同或不同的算法,可以理解的,若是相同的算法,则由于参数不同以及层数不同,使一级唤醒检测和二级唤醒检测的检测算法不同。例如,一级唤醒检测的算法可以是vector算法、hmm算法,或者cnn算法,fsmn算法;二级唤醒检测的算法可以是dnn算法、lstm算法、fsmn算法等。
另外,一级唤醒检测以及二级唤醒检测可以分别设置有对应的阈值,具体设置值在本申请实施例中并不限定,如一级唤醒检测对应的阈值设置为0.5,二级唤醒检测对应的阈值设置为0.5。
一级唤醒检测的输出结果可以表示检测的音频段为唤醒音频的概率,或者说表示检测的音频段与预设的唤醒音频之间的匹配度。若输出结果大于对应的阈值,则可以确定满足一级唤醒检测的唤醒条件,检测通过;反之则不通过。
对应的,二级唤醒检测的输出结果也可以表示检测的音频段为唤醒音频的概率,或者说表示检测的音频段与预设的唤醒音频之间的匹配度。若输出结果大于对应的阈值,则可以确定满足二级唤醒检测的唤醒条件,检测通过;反之则不通过。
其中,通过检测后可以进入下一步操作;如通过非最后一步检测,可以进入下一步检测,或者是通过最后一步检测可以确定语音数据为唤醒音频,可以进行对应的唤醒操作。在二级唤醒检测通过的情况下,可以确定该目标音频的语音内容与唤醒音频的语音内容匹配。如唤醒音频为包括唤醒词的音频,则判定该目标音频中也包括唤醒词。
在该实施方式中,若二级唤醒检测通过,可以获取目标音频与唤醒音频的声纹匹配度。
在需要进行声纹匹配的唤醒过程中,造成用户唤醒体验不佳的痛点主要在于声纹通过率较低,在该实施方式中,可以将目标音频与唤醒音频的声纹匹配度,作为后续步骤中与当前阈值比较的匹配度。该匹配度也可以表示目标音频与预输入的唤醒音频的声纹相同的概率,或者说目标音频与目标用户的声纹相同的概率。
在实施方式中,任意一级唤醒检测不通过,可以认为接收到的不是唤醒音频,不执行唤醒操作。
本申请实施例还提供了一种实施方式,可以在多级匹配的情况下,对任意一级唤醒检测对应的阈值根据当前实际对应的用户行为数据进行降低。即根据当前时间对应的用户行为数据确定阈值权重,任意一级唤醒检测对应的阈值与该阈值权重相乘后获得的值,作为该级唤醒检测用于是否通过的比较阈值。若检测的输出结果大于该降低后的阈值,则该级的唤醒检测通过;若输出结果小于或等于该降低后的阈值,该级的唤醒检测不通过。
例如,二级唤醒检测对应的阈值与确定的阈值权重相乘后获得的值,与二级检测的输出结果进行比较,并根据比较结果确定是否通过检测。
在本申请实施例中,需要计算阈值权重时,可以根据当前时间对应的用户行为数据确定阈值权重。例如,接收到目标音频时,还可以根据当前时间对应的用户行为数据确定阈值权重,该阈值权重用于根据用户行为数据表明用户进行唤醒操作的概率高低,对预设阈值进行不同程度的降低,其中,概率越高,对预设阈值的降低越低。确定阈值权重的具体方式可以参见步骤S220至步骤S240。
步骤S220:获取当前时间对应的用户行为数据。
该当前时间可以为目标音频的接收时间,即采集到目标音频的时间。由于用户在不同时间的行为习惯不同,对电子设备进行语音唤醒的可能性不同,例如,用户在早晨上班途中进行自驾时,通常通过语音唤醒电子设备并进行控制的可能性较高;用户在上班过程中,通常不会对电子设备进行语音唤醒等。
因此,可以获取当前时间对应的用户行为数据,以通过用户行为数据所表示的用户行为习惯,预测用户进行语音唤醒的概率。可选的,可以在确定获取到目标音频时开始获取用户行为数据,也可以在获取到匹配度时开始获取用户行为数据,也可以在开始计算匹配度时获取用户行为数据,具体时机在本申请实施例中并不限定,可以以能尽快获得是否执行唤醒操作的判断结果并且不增加额外的无用操作为标准。
具体的,在本申请实施例中,可以根据用户的行为规律将时间划分为时间周期,每个时间周期内的时间划分为多段时间,每一段时间作为一个单位时间,当前时间对应的用户行为数据为当前时间所在单位时间内的用户行为数据,或者说,将当前时间所在单位时间内的用户行为数据作为当前时间对应的用户行为数据。
其中,具体的时间划分在本申请实施例中并不限定,例如,每一周作为一个时间周期,将每两个小时的时间划分为一个单位时间,如0时到2时为一个单位时间,2时到4时为一个单位时间,4时到6时为一个单位时间等。又如,每一天作为一个时间周期,一个时间周期内的每个小时作为一个单位时间等。
电子设备可以收集用户行为数据,在接收到目标音频时,将当前时间所在的单位时间的开始至当前时间产生的用户行为数据,作为当前时间对应的用户行为数据。
另外,在本申请实施例中,用户行为数据具体为哪些数据也并不限定,可以是具有反映用户是否可能进行语音唤醒的数据,可以包括用户的操作数据,也可用包括环境数据。例如,用户行为数据可以包括如下一种或多种:当前单位时间内唤醒触发的次数,触发次数越多,则用户在该单位时间内使用语音唤醒的可能性越高,用户在该单位时间内进行唤醒的概率越高;当前单位时间内唤醒后语音控制的使用时间长度,唤醒后语音控制的使用时间长度越长,表示用户在该单位时间内对语音控制越依赖,则进行唤醒的概率越高,如语音助手的使用时间长度,该使用时间长度可以在关闭唤醒后统计。另外,有些用户在电子设备的使用过程中,在电子设备的某些使用场景下或者某些程序的运行过程中,可能比较倾向于进行语音控制,则这些用户在电子设备的这些场景或者这些程序使用时,进行唤醒的概率较高,而另外一些用户在这些使用场景下或程序运行时可能不太使用语音控制,则进行唤醒的概率较低,因此,可以以电子设备的使用场景或者运行的应用程序作为用户行为数据,对用户是否进行语音唤醒进行预测,用户行为数据也可以包括如下一种或多种:电子设备当前是否为音乐播放场景;电子设备当前是否为视频播放场景;电子设备当前前台运行的应用程序名称;电子设备当前开启的应用程序名称。另外,用户在不同的时间,对语音唤醒的使用概率也不同,如用户在通勤时间比较容易进行语音控制,而通勤时间是比较规律的,因此可以以时间定位作为用户行为数据,如当前单位时间在时间周期中的定位。在本申请实施例中,用户行为数据包括哪些并不限定,可以是任何用户使用电子设备的数据以及电子设备使用过程中的环境数据等,用于发现用户对语音唤醒使用的规律以进行预测,如可以包括用户其他的操作数据、电子设备的使用数据以及环境数据等。
其中,当用户行为数据包括多种时,多种数据作为一组用户行为数据,一组用户行为数据作为整体,用于进行用户唤醒操作的概率预测。另外,语音助手可以是集成本申请实施例的方法的应用程序,语音助手还可以根据用户输入的音频进行指令分析,并根据分析的确定的指令对电子设备进行控制。当前单位时间在时间周期中的定位可以是,对时间周期进行不同定位划分,如以周为时间周期时,每一天作为一个定位划分,当前单位时间在时间周期的定位可以是星期几;一天为一个时间周期时,白天和黑夜为不同的定位划分,当前单位时间在时间周期的定位可以是白天或者黑夜等。
可选的,若用户行为数据中的各种数据仅与当前时刻相关,而与时间长度无关,也可以以当前时间这一时刻的用户行为数据作为当前时间对应的用户行为数据。例如,用户行为数据为当前时间开启的应用程序以及播放的音乐。
步骤S230:获取所述用户行为数据对应的概率值,所述概率值表示用户进行唤醒操作的概率。
在本申请实施例中,获取到的不同用户行为数据具有其对应的概率值,表示用户进行唤醒操作的概率,该概率值为小于或等于1的数。
在一种实施方式中,可以预先设置概率对应关系表,其中包括不同单位时间内不同用户行为数据分别对应的概率值。获取到当前时间对应的用户行为数据后,可以根据概率对应关系表进行查找,在概率对应关系表中查找与当前时间所在的单位时间相同的单位时间,再从相同的单位时间对应的各种用户行为数据中查找与当前获取的用户行为数据相似度大于预设相似度的用户行为数据,作为查找到的用户行为数据。再以查找到的用户行为数据对应的概率值作为获取到的用户行为数据对应的概率值。
可选的,在该实施方式中,每一个电子设备中可以对应存储对应关系表。具体的,可以统计该电子设备对应的用户行为数据,以及每个用户行为数据对应的概率值,即每个用户行为数据下用户实际进行唤醒的概率值。统计每个用户行为数据对应的概率值时,可以统计该用户行为数据下的正样本与该用户行为数据统计次数之比,作为该用户行为数据对应的概率值。该正样本表示用户行为数据下执行唤醒操作且在唤醒操作对应的唤醒状态下接收到有语音指令。每个用户行为数据表示作为一个整体的用户行为数据,用户行为数据的统计次数为,该用户行为数据在统计时间内出现的次数。该统计时间可以为该电子设备的使用时间内,也可以是当前时间之前的预设时间内。
在另一种实施方式中,可以通过预测模型对用户行为数据可能对应的概率值进行预测输出,定义该预测模型为第一预测模型。根据训练后的第一预测模型,以获取的用户行为数据作为第一预测模型的输入,获取第一预测模型输出的概率值作为用户行为数据对应的概率值。其中,该第一预测模型用于根据用户行为数据预测用户进行唤醒操作的概率,其第一预测模型的输出值为预测的概率值。如该第一预测模型可以是一个分类模型,输出的为将用户行为数据分类为用户会触发唤醒操作的数据的概率,如该第一预测模型可以是GRU网络模型。
具体的,在该实施方式中,获取所述用户行为数据对应的概率值,可以包括:将所述用户行为数据输入第一预测模型;获取所述第一预测模型输出的概率值,该概率值即为用户行为数据对应的概率值。
可选的,在本申请实施例中,还可以包括对第一预测模型的训练。该对第一预测模型的训练可以是,对应预设时间长度内的各个单位时间,确定各个单位时间内的用户行为数据以及各个单位时间是否满足正样本条件,其中,所述正样本条件为执行唤醒操作且在唤醒操作对应的唤醒状态下接收到有语音指令;将满足正样本条件的单位时间内的用户行为数据标记为正样本;将不满足正样本条件的单位时间内的用户行为数据标记为负样本;将所述预设时间内的正样本以及负样本输入第一预测模型进行训练,获取训练后的第一预测模型。
也就是说,获取预设时间长度内各个单位时间内的用户行为数据以及各个单位时间是否满足正样本条件。该预设时间长度可以是一个时间周期;该预设时间长度也可以是多个时间周期,如一个周期为一周,该预设时间长度为一个月,且是模型训练时最近的一个月。另外,还可以选取预设时间长度内且唤醒次数满足预设时间条件的用户行为数据,如一个月内且总的唤醒次数小于100次。
确定单位时间是否满足正样本条件,即确定单位时间内的用户行为数据是否为正样本。其中,单位时间内作为正样本的用户行为数据为预测用户在该单位时间内百分之百进行语音唤醒的用户行为数据,而用户百分之百进行唤醒,就需要确定电子设备根据接收到的目标音频进行唤醒确实时用户想要唤醒,而并非误识别导致的误唤醒。另外,若电子设备在基于接收到的目标音频进行唤醒并执行唤醒操作后,再接收到用户的语音指令,可以确定并非误唤醒,因此,在本申请实施例中,若单位时间内有执行唤醒操作且在唤醒操作对应的唤醒状态下接收到有语音指令,可以确定该单位时间满足正样本条件。
其中,语音指令为用户通过语音下发的指令,该指令为对电子设备进行控制的指令。如在唤醒电子设备的语音助手后,再接收到用户的“播放《xxx》歌曲”、“导航到xxx”等指令,可以确定接收到有语音指令。电子设备可以在唤醒后接收语音信号,并对语音信号进行是否语音指令的识别。
可选的,若在唤醒后仅接收到关闭唤醒的指令,则可能该唤醒也是误唤醒。因此,在本申请实施例中,正样本条件可以为执行唤醒操作,在唤醒操作对应的唤醒状态下接收到有非关闭唤醒的语音指令。
而不满足正样本条件的单位时间内的用户行为数据,表示用户在该用户行为数据所表示的用户行为习惯下,不可能进行唤醒,可以作为负样本。
在该实施方式中,正样本标记概率为1,负样本标记概率为0。
在训练时,将多个正样本以及负样本输入待训练的第一预测模型,使训练后的第一预测模型可以根据输入的用户行为数据输出该用户行为数据可以分类为正样本的概率,即输出该用户行为数据表示用户可能进行唤醒操作的概率,该概率为0到1之间的某个值。该待训练的第一预测模型可以为神经网络模型,如用于分类的神经网络模型。
具体训练过程在本申请实施例中并不限定,例如,第一预测模型输出各个样本为正样本的概率,并且根据输出的概率与标记的概率确定损失函数,不断调整第一预测模型中的参数使损失函数不断缩小,直到训练过程收敛。如损失函数表示的输出的概率与标记的概率之间的差值小于预设差值时表示训练结束,又如训练过程的迭代次数达到预设次数表示训练过程结束等等。
可选的,在本申请实施例中,可以周期性训练预测模型,以根据最近时间周期的用户行为数据训练得到最新的模型。具体的,该训练可以为对未训练过的预测模型进行训练,获得新的预测模型。定义新训练的预测模型为第二预测模型,可以周期性获取用户行为数据,使用该周期性获取的用户行为数据对第二预测模型进行训练,并将训练后的第二预测模型替换已有的第一预测模型。周期性获取的用户行为数据可以是预设时间长度内的用户行为数据,例如,以一周为一个时间周期,预设时间长度为一个月,每一周结束时,获取最近一个月内的各个单位时间内的用户行为数据,根据最近一个月内的各个单位时间内的用户行为数据对未训练过的预测模型进行训练,作为下一周用于预测概率的预测模型。
可选的,电子设备可以出厂设置有初始的预测模型,在集成该语音唤醒方法的电子设备进行使用的第一个时间周期内,通过该初始的预测模型以及获取的用户行为数据进行概率预测。
可选的,在集成该语音唤醒方法的电子设备进行使用的第一个时间周期内,也可以从服务器获取初始的预测模型,用于进行概率预测。
可选的,在集成该语音唤醒方法的电子设备进行使用的第一个时间周期内,也可以不使用预测模型,或者说,假设每个单位时间内的用户行为数据对应的概率值都为1,直接将匹配度与预设阈值本身进行比较。在第二个时间周期开始或者第一个时间周期结束时,产生有用户行为数据,可以获取到有用户行为数据,根据获取的用户行为数据训练预测模型,用于进行第二时间周期概率值的预测,后续的各个时间周期再依次更新。
步骤S240:根据所述概率值计算阈值权重,其中,概率值越大,计算出的阈值权重越小。
在用户行为数据表示用户实际进行唤醒操作的概率越高,可以将与匹配度进行匹配的阈值设置得越小,从而即使匹配度的获取不够准确,也可以在预测唤醒可能性较高的情况下提高通过率以提高唤醒率,在预测唤醒可能性较低的情况下,降低通过率,以降低误唤醒率。
在本申请实施例中,可以设置概率值与权值阈值之间的关系,该概率值与阈值权重的关系中,概率值越大,阈值权重越小,且阈值权重小于或等于1。并且,概率值和权重阈值都为大于或等于0的数。根据所述概率值计算阈值权重时,可以根据所述概率值与阈值权重的关系计算所述阈值权重。
在一种实施方式中,概率值与权重阈值之间的关系可以是反比例关系,随着概率值的增大,权重阈值减小。
在一种实施方式中,概率值与权重阈值之间的关系可以是常数为负的一次函数,如y=-x+1,y表示权重阈值,x表示概率值,x大于或等于0,小于或等于1。
在本申请实施例中,概率值与权重阈值之间的具体关系可以并不限定,满足概率值越高,权重阈值越低即可。
另外,在本申请实施例中,若权重阈值过小,则将预设阈值降低后获得的当前阈值过小,可能产生误唤醒。因此,可以对权重阈值的最小值进行限制。
在一种实施方式中,当计算获得的权重阈值小于最小值时,将权重阈值统一为一个合适的值,如0.5。
在一种实施方式中,概率值与权重阈值之间的关系中,在概率值的变化范围内,权重阈值的大小在大于最小值且小于或等于1之间。例如,概率值与权重阈值之间的关系可以是常数为负的一次函数,如y=-x+1.5,y表示权重阈值,x表示概率值,x大于或等于0,小于或等于1,在x从0到1的变化过程中,权重阈值从1.5到0.5变化,由于权重阈值限制为小于等于1,则权重阈值大于1的情况下取1,权重阈值对应从1到0.5变化。
在一种实施方式中,若第一预测模型预测用户进行唤醒操作的概率较低,可以不对通过率进行提高的处理,即当前阈值可以不与预设阈值相同,或者说以预设阈值作为当前阈值。可选的,在本申请实施例中,根据所述概率值与阈值权重的关系计算所述阈值权重之前,还可以根据概率值与预设概率值的大小关系确定权重阈值的设置。其中,可以设置预设概率值用于确定用户进行唤醒操作的概率是否足够低,该预设概率值的大小在本申请实施例中并不限定,例如可以是0.5。
在该实施方式中,电子设备可以判断第一预测模型输出的概率值与预设概率值的大小关系。若该概率值小于预设概率值,将所述阈值权重设置为1。若该概率值大于或等于所述预设概率值,可以根据概率值与阈值权重的关系计算所述阈值权重。
步骤S250:计算预设阈值与阈值权重的乘积,获得当前阈值。
将预设阈值与权重阈值相乘,获得的乘积作为用于与匹配度比较的当前阈值。
其中,该预设阈值为预先设置的与匹配度对应的阈值。如匹配度为语音内容的匹配度,该阈值为语音内容的匹配度对应的阈值;匹配度为声纹匹配度,该阈值为声纹匹配对应的阈值等。
具体值在本申请实施例中并不限定,如由相关人员根据经验设置,或者由用户设置,或者是预先根据实验调试设置。根据实验调试设置可以是,将用于实验的唤醒音频以及非唤醒音频分别与预先采集的标准唤醒音频进行匹配获得匹配度,不断调试预设阈值的大小,使最大可能实现用于实验的唤醒音频对应的匹配度大于该预设阈值,使非唤醒音频的匹配度小于或等于预设阈值。
步骤S260:若所述匹配度大于所述当前阈值,执行所述唤醒音频对应的唤醒操作。
若步骤S210对应获得的用于与当前阈值进行比较的匹配度大于当前阈值,则可以确定匹配通过。
在该匹配度为语音唤醒过程中最后一步的匹配时,若匹配通过,则可以执行唤醒音频对应的唤醒操作。
若匹配度小于或等于当前阈值,确定匹配不通过,并非用户在执行唤醒操作,可以不做唤醒操作,也可以不做其他任何操作。
可选的,若匹配度为多级匹配中任意一级的匹配度,并且并非最后一级匹配时,若匹配通过,则可以进行下一级的匹配。
在本申请实施例中,根据用户行为数据预测用户进行电子设备唤醒的概率高低。概率越高时,对预设阈值进行越多的降低,提高唤醒的通过率,实现用户越可能进行唤醒的场景下,唤醒的通过率越高;而用户越不可能唤醒的情况下,唤醒的通过率越低,从而提高了唤醒率,降低了误唤醒率。
本申请实施例还提供了一种语音唤醒装置400。如图3所示,该装置400可以包括:匹配度计算模块410,用于接收到目标音频时,计算所述目标音频与唤醒音频的匹配度。阈值权重计算模块420,用于根据当前时间对应的用户行为数据确定阈值权重,其中,所述阈值权重小于1或等于1,所述当前时间对应的用户行为数据表明用户进行唤醒操作的概率越高,所述阈值权重越小。阈值计算模块430,用于计算预设阈值与阈值权重的乘积,获得当前阈值。唤醒模块440,用于若所述匹配度大于所述当前阈值,执行所述唤醒音频对应的唤醒操作。
可选的,阈值权重计算模块420可以包括,数据获取单元,用于获取当前时间对应的用户行为数据;概率计算单元,用于获取所述用户行为数据对应的概率值,所述概率值表示用户进行唤醒操作的概率;阈值权重计算单元,用于根据所述概率值计算阈值权重,其中,概率值越大,计算出的阈值权重越小。
可选的,概率计算单元可以用于将所述用户行为数据输入第一预测模型,所述第一预测模型用于根据用户行为数据预测用户进行唤醒操作的概率;获取所述第一预测模型输出的概率值。
可选的,所述当前时间对应的用户行为数据为当前时间所在单位时间内的用户行为数据。该装置还可以包括训练模块,用于对应预设时间长度内的各个单位时间,确定各个单位时间内的用户行为数据以及各个单位时间是否满足正样本条件,其中,所述正样本条件为执行唤醒操作且在唤醒操作对应的唤醒状态下接收到有语音指令;将满足正样本条件的单位时间内的用户行为数据标记为正样本;将不满足正样本条件的单位时间内的用户行为数据标记为负样本;将所述预设时间内的正样本以及负样本输入第一预测模型进行训练,获取训练后的第一预测模型。
可选的,训练模块可以用于周期性获取用户行为数据,使用周期性获取的用户行为数据对第二预测模型进行训练,并将训练后的第二预测模型替换已有的第一预测模型。
可选的,阈值权重计算单元可以用于根据所述概率值与阈值权重的关系计算所述阈值权重。
可选的,该装置还可以包括判断模块,用于判断所述概率值与预设概率值的大小关系;阈值权重设置模块,用于若所述概率值小于预设概率值,将所述阈值权重设置为1;阈值权重计算单元,用于若所述概率值大于或等于所述预设概率值,执行所述根据所述概率值与阈值权重的关系计算所述阈值权重的步骤。
可选的,匹配度计算模块410可以用于接收到语音信号时,将持续接收到的音频分音频段进行一级唤醒检测;若有音频段满足一级唤醒检测的唤醒条件,以所述满足一级唤醒检测的唤醒条件的音频段作为目标音频,对所述目标音频进行二级唤醒检测,所述二级唤醒检测的功耗高于所述一级唤醒检测,所述二级唤醒检测的通过率高于所述一级唤醒检测;若所述目标音频满足所述二级唤醒检测的唤醒条件,将所述目标音频的声纹与唤醒音频的声纹进行匹配,获取匹配度。
本申请实施例提供的语音唤醒方法及装置,充分挖掘与用户语音本身无关的其他行为习惯,根据反映用户行为习惯的用户行为数据动态降低与匹配度进行比较的阈值,针对阈值做单向降低的调整,能够在改善用户体验的同时,不会引入唤醒性能波动的风险。
在多级唤醒检测时,如图4所示,根据收集的用户行为数据对预测模型进行训练与更新,获得训练后或更新后的预测模型。音频通过一级唤醒检测以及二级唤醒检测后,获取声纹识别的匹配度。根据该匹配度以及预测模型共同判断是否进行唤醒,是否执行唤醒操作。该多级唤醒检测过程中,充分挖掘与用户语音本身无关的其他行为习惯,进而对判断用户是否使用声纹唤醒的依据做补充。预测模型可以为深度学习算法对应的模型,实现利用深度学习算法对用户行为进行预测,判定其会唤醒的概率,进而调整声纹阈值,改善唤醒体验,由于对声纹阈值做单向降低处理,所以不会造成太大的波动。
其中,一级唤醒检测可以运行于低功耗的芯片,二级唤醒检测可以运行于高性能处理芯片,声纹识别也可以运行于高性能处理芯片。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述的各个方法实施例之间可以相互参照;上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。各个模块可以配置在不同的电子设备中,也可以配置在相同的电子设备中,本申请实施例并不限定。
请参考图5,其示出了本申请实施例提供的一种电子设备900的结构框图。该电子设备可以包括一个或多个处理器910(图中仅示出一个),存储器920以及一个或多个程序。其中,所述一个或多个程序被存储在所述存储器920中,并被配置为由所述一个或多个处理器910执行。所述一个或多个程序被处理器执行用于执行前述实施例所描述的方法。
处理器910可以包括一个或者多个处理核。处理器910利用各种接口和线路连接整个电子设备900内的各个部分,通过运行或执行存储在存储器920内的指令、程序、代码集或指令集,以及调用存储在存储器920内的数据,执行电子设备900的各种功能和处理数据。可选地,处理器910可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器910可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器910中,单独通过一块通信芯片进行实现。
存储器920可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据等。
请参考图6,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1000中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质1000可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质1000包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1000具有执行上述方法中的任何方法步骤的程序代码1010的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1010可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (11)
1.一种语音唤醒方法,其特征在于,所述方法包括:
接收到目标音频时,计算所述目标音频与唤醒音频的匹配度;
根据当前时间对应的用户行为数据确定阈值权重,其中,所述阈值权重小于1或等于1,所述当前时间对应的用户行为数据表明的用户进行唤醒操作的概率越高,所述阈值权重越小;
计算预设阈值与阈值权重的乘积,获得当前阈值,所述预设阈值为配置的用于与所述匹配度比较的阈值;
若所述匹配度大于所述当前阈值,执行所述唤醒音频对应的唤醒操作。
2.根据权利要求1所述的方法,其特征在于,所述根据当前时间对应的用户行为数据确定阈值权重,包括:
获取当前时间对应的用户行为数据;
获取所述用户行为数据对应的概率值,所述概率值表示用户进行唤醒操作的概率;
根据所述概率值计算阈值权重,其中,概率值越大,计算出的阈值权重越小。
3.根据权利要求2所述的方法,其特征在于,所述获取所述用户行为数据对应的概率值,包括:
将所述用户行为数据输入第一预测模型,所述第一预测模型用于根据用户行为数据预测用户进行唤醒操作的概率;
获取所述第一预测模型输出的概率值。
4.根据权利要求3所述的方法,其特征在于,所述当前时间对应的用户行为数据为当前时间所在单位时间内的用户行为数据,所述方法还包括:
对应预设时间长度内的各个单位时间,确定各个单位时间内的用户行为数据以及各个单位时间是否满足正样本条件,其中,所述正样本条件为执行唤醒操作且在唤醒操作对应的唤醒状态下接收到有语音指令;
将满足正样本条件的单位时间内的用户行为数据标记为正样本;
将不满足正样本条件的单位时间内的用户行为数据标记为负样本;
将所述预设时间内的正样本以及负样本输入第一预测模型进行训练,获取训练后的第一预测模型。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
周期性获取用户行为数据,使用所述周期性获取的用户行为数据对第二预测模型进行训练,并将训练后的第二预测模型替换已有的第一预测模型。
6.根据权利要求2所述的方法,其特征在于,所述根据所述概率值计算阈值权重,包括:
根据所述概率值与阈值权重的关系计算所述阈值权重。
7.根据权利要求6所述的方法,其特征在于,所述根据所述概率值与阈值权重的关系计算所述阈值权重之前,还包括:
判断所述概率值与预设概率值的大小关系;
若所述概率值小于预设概率值,将所述阈值权重设置为1;
若所述概率值大于或等于所述预设概率值,执行所述根据所述概率值与阈值权重的关系计算所述阈值权重的步骤。
8.根据权利要求1所述的方法,其特征在于,所述接收到目标音频时,计算所述目标音频与唤醒音频的匹配度,包括:
接收到语音信号时,将持续接收到的音频分音频段进行一级唤醒检测;
若有音频段满足一级唤醒检测的唤醒条件,以所述满足一级唤醒检测的唤醒条件的音频段作为目标音频,对所述目标音频进行二级唤醒检测,所述二级唤醒检测的功耗高于所述一级唤醒检测,所述二级唤醒检测的通过率高于所述一级唤醒检测;
若所述目标音频满足所述二级唤醒检测的唤醒条件,将所述目标音频的声纹与唤醒音频的声纹进行匹配,获取匹配度。
9.一种语音唤醒装置,其特征在于,所述装置包括:
匹配度计算模块,用于接收到目标音频时,计算所述目标音频与唤醒音频的匹配度;
阈值权重计算模块,用于根据当前时间对应的用户行为数据确定阈值权重,其中,所述阈值权重小于1或等于1,所述当前时间对应的用户行为数据表明的用户进行唤醒操作的概率越高,所述阈值权重越小;
阈值计算模块,用于计算预设阈值与阈值权重的乘积,获得当前阈值,所述预设阈值为配置的用于与所述匹配度比较的阈值;
唤醒模块,用于若所述匹配度大于所述当前阈值,执行所述唤醒音频对应的唤醒操作。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被所述处理器执行用于执行如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010761008.5A CN111880856B (zh) | 2020-07-31 | 2020-07-31 | 语音唤醒方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010761008.5A CN111880856B (zh) | 2020-07-31 | 2020-07-31 | 语音唤醒方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111880856A true CN111880856A (zh) | 2020-11-03 |
CN111880856B CN111880856B (zh) | 2023-05-16 |
Family
ID=73205017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010761008.5A Active CN111880856B (zh) | 2020-07-31 | 2020-07-31 | 语音唤醒方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111880856B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233676A (zh) * | 2020-11-20 | 2021-01-15 | 深圳市欧瑞博科技股份有限公司 | 智能设备唤醒方法、装置、电子设备及存储介质 |
CN112489663A (zh) * | 2020-11-09 | 2021-03-12 | 北京声智科技有限公司 | 一种语音唤醒方法、装置、介质和设备 |
CN112489648A (zh) * | 2020-11-25 | 2021-03-12 | 广东美的制冷设备有限公司 | 唤醒处理阈值调整方法、语音家电、存储介质 |
CN112882760A (zh) * | 2021-02-22 | 2021-06-01 | 北京声智科技有限公司 | 一种智能设备的唤醒方法、装置及设备 |
CN113335205A (zh) * | 2021-06-09 | 2021-09-03 | 东风柳州汽车有限公司 | 语音唤醒方法、装置、设备及存储介质 |
CN114429766A (zh) * | 2022-01-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 调整播放音量的方法、装置、设备以及存储介质 |
WO2022142048A1 (zh) * | 2020-12-28 | 2022-07-07 | 北京百度网讯科技有限公司 | 唤醒指标监测方法、装置及电子设备 |
CN115171699A (zh) * | 2022-05-31 | 2022-10-11 | 青岛海尔科技有限公司 | 唤醒参数的调整方法和装置、存储介质及电子装置 |
CN115376545A (zh) * | 2021-05-21 | 2022-11-22 | 漳州立达信光电子科技有限公司 | 一种声音侦测方法、装置、设备及存储介质 |
CN115801479A (zh) * | 2023-02-02 | 2023-03-14 | 卧安科技(深圳)有限公司 | 物联网设备低功耗唤醒方法、唤醒装置以及物联网设备 |
EP4099319A4 (en) * | 2020-12-28 | 2023-11-15 | Beijing Baidu Netcom Science Technology Co., Ltd. | WAKE INDEX MONITORING METHOD AND APPARATUS AND ELECTRONIC DEVICE |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047487A (zh) * | 2019-06-05 | 2019-07-23 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
CN110570861A (zh) * | 2019-09-24 | 2019-12-13 | Oppo广东移动通信有限公司 | 用于语音唤醒的方法、装置、终端设备及可读存储介质 |
US10510340B1 (en) * | 2017-12-05 | 2019-12-17 | Amazon Technologies, Inc. | Dynamic wakeword detection |
CN111176743A (zh) * | 2019-12-31 | 2020-05-19 | 云知声智能科技股份有限公司 | 一种基于用户使用习惯的唤醒性能优化方法及装置 |
-
2020
- 2020-07-31 CN CN202010761008.5A patent/CN111880856B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10510340B1 (en) * | 2017-12-05 | 2019-12-17 | Amazon Technologies, Inc. | Dynamic wakeword detection |
CN110047487A (zh) * | 2019-06-05 | 2019-07-23 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
CN110570861A (zh) * | 2019-09-24 | 2019-12-13 | Oppo广东移动通信有限公司 | 用于语音唤醒的方法、装置、终端设备及可读存储介质 |
CN111176743A (zh) * | 2019-12-31 | 2020-05-19 | 云知声智能科技股份有限公司 | 一种基于用户使用习惯的唤醒性能优化方法及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489663A (zh) * | 2020-11-09 | 2021-03-12 | 北京声智科技有限公司 | 一种语音唤醒方法、装置、介质和设备 |
CN112233676A (zh) * | 2020-11-20 | 2021-01-15 | 深圳市欧瑞博科技股份有限公司 | 智能设备唤醒方法、装置、电子设备及存储介质 |
CN112489648A (zh) * | 2020-11-25 | 2021-03-12 | 广东美的制冷设备有限公司 | 唤醒处理阈值调整方法、语音家电、存储介质 |
CN112489648B (zh) * | 2020-11-25 | 2024-03-19 | 广东美的制冷设备有限公司 | 唤醒处理阈值调整方法、语音家电、存储介质 |
WO2022142048A1 (zh) * | 2020-12-28 | 2022-07-07 | 北京百度网讯科技有限公司 | 唤醒指标监测方法、装置及电子设备 |
EP4099319A4 (en) * | 2020-12-28 | 2023-11-15 | Beijing Baidu Netcom Science Technology Co., Ltd. | WAKE INDEX MONITORING METHOD AND APPARATUS AND ELECTRONIC DEVICE |
CN112882760A (zh) * | 2021-02-22 | 2021-06-01 | 北京声智科技有限公司 | 一种智能设备的唤醒方法、装置及设备 |
CN115376545A (zh) * | 2021-05-21 | 2022-11-22 | 漳州立达信光电子科技有限公司 | 一种声音侦测方法、装置、设备及存储介质 |
CN113335205A (zh) * | 2021-06-09 | 2021-09-03 | 东风柳州汽车有限公司 | 语音唤醒方法、装置、设备及存储介质 |
CN114429766A (zh) * | 2022-01-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 调整播放音量的方法、装置、设备以及存储介质 |
CN115171699A (zh) * | 2022-05-31 | 2022-10-11 | 青岛海尔科技有限公司 | 唤醒参数的调整方法和装置、存储介质及电子装置 |
CN115801479A (zh) * | 2023-02-02 | 2023-03-14 | 卧安科技(深圳)有限公司 | 物联网设备低功耗唤醒方法、唤醒装置以及物联网设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111880856B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111880856B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
US20230409102A1 (en) | Low-power keyword spotting system | |
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN111223497B (zh) | 一种终端的就近唤醒方法、装置、计算设备及存储介质 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN107767863B (zh) | 语音唤醒方法、系统及智能终端 | |
CN108182937B (zh) | 关键词识别方法、装置、设备及存储介质 | |
WO2020247231A1 (en) | Multiple classifications of audio data | |
CN112368769B (zh) | 端到端流关键词检出 | |
CN110047485B (zh) | 识别唤醒词的方法和装置、介质以及设备 | |
CN111128134B (zh) | 声学模型训练方法和语音唤醒方法、装置及电子设备 | |
CN111968644B (zh) | 智能设备唤醒方法、装置及电子设备 | |
CN110473536B (zh) | 一种唤醒方法、装置和智能设备 | |
CN108055617B (zh) | 一种麦克风的唤醒方法、装置、终端设备及存储介质 | |
CN111508493B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN116648743A (zh) | 基于个性化否定来适应热词辨识 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN113330513B (zh) | 语音信息处理方法及设备 | |
CN112669818B (zh) | 语音唤醒方法及装置、可读存储介质、电子设备 | |
CN115881124A (zh) | 语音唤醒识别方法、设备及存储介质 | |
CN113707154B (zh) | 模型训练方法、装置、电子设备和可读存储介质 | |
CN111028830B (zh) | 一种本地热词库更新方法、装置及设备 | |
CN114299941A (zh) | 语音交互的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |