CN109686368A - 语音唤醒应答处理方法及装置、电子设备及存储介质 - Google Patents

语音唤醒应答处理方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109686368A
CN109686368A CN201811505802.2A CN201811505802A CN109686368A CN 109686368 A CN109686368 A CN 109686368A CN 201811505802 A CN201811505802 A CN 201811505802A CN 109686368 A CN109686368 A CN 109686368A
Authority
CN
China
Prior art keywords
voice
wakes
signal
wake
acknowledgement mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811505802.2A
Other languages
English (en)
Other versions
CN109686368B (zh
Inventor
王永亮
任伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wutong Chelian Technology Co Ltd
Original Assignee
Beijing Wutong Chelian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wutong Chelian Technology Co Ltd filed Critical Beijing Wutong Chelian Technology Co Ltd
Priority to CN201811505802.2A priority Critical patent/CN109686368B/zh
Publication of CN109686368A publication Critical patent/CN109686368A/zh
Application granted granted Critical
Publication of CN109686368B publication Critical patent/CN109686368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明实施例公开了一种语音唤醒应答处理方法及装置、电子设备及存储介质。所述方法包括:采集语音获得语音信号;若所述语音信号中包含预定的唤醒词时,确定所述唤醒词所对应的第一信号与所述第一信号之后的第二信号之间的连续性;若所述连续性满足预定连续条件,确定进入第一语音唤醒应答机制;若所述连续性不满足所述预定连续条件,确定提供所述语音的目标用户的偏好信息;若所述偏好信息指示所述目标用户偏好使用所述第一语音唤醒应答机制,确定进入所述第一语音唤醒应答机制。

Description

语音唤醒应答处理方法及装置、电子设备及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种语音唤醒应答处理方法及装置、电子设备及存储介质。
背景技术
随着语音技术的发展,越来越多的电子设备具有语音处理功能,能够采集用户的功能指令并基于功能指令执行对应的操作。不同的人在说话时都有自己的偏好,若对于所有用户都采用统一的语音唤醒应答机制,显然会出现不能满足不同用户的个性需求,使得有的用户感觉使用不方便的问题。
发明内容
有鉴于此,本发明实施例期望提供一种语音唤醒应答处理方法及装置、电子设备及存储介质。
本发明的技术方案是这样实现的:
一种语音唤醒应答处理方法,包括:
采集语音获得语音信号;
若所述语音信号中包含预定的唤醒词时,确定所述唤醒词所对应的第一信号与所述第一信号之后的第二信号之间的连续性;
若所述连续性满足预定连续条件,确定进入第一语音唤醒应答机制;
若所述连续性不满足所述预定连续条件,确定提供所述语音的目标用户的偏好信息;
若所述偏好信息指示所述目标用户偏好使用所述第一语音唤醒应答机制,确定进入所述第一语音唤醒应答机制。
基于上述方案,所述方法还包括:
若所述偏好信息指示所述目标用户偏好使用第二语音唤醒应答机制,确定进入第二语音唤醒应答机制。
基于上述方案,所述方法还包括:
在确定进入所述第二语音唤醒应答机制时,电子设备基于所述唤醒词唤醒进入主界面。
基于上述方案,所述方法还包括:
在所述电子设备进入所述主界面之后,根据所述第二信号所对应的功能指令输出提示信息;
若接收到作用于所述提示信息的确认指令,所述电子设备执行所述功能指令。
基于上述方案,所述方法还包括:
若接收到所述确认指令,以所述第一语音唤醒应答机制作为本次所述目标用户想要使用的语音唤醒应答机制,更新所述目标用户的偏好信息。
基于上述方案,所述方法还包括:
若接收到所述提示信息的否认指令,根据当前进入的语音唤醒应答机制,更新所述目标用户的偏好信息。
基于上述方案,所述方法还包括:
从所述语音信号中提取音频特征;
根据所述音频特征识别所述目标用户。
基于上述方案,所述方法还包括:
在确定进入第一语音唤醒应答机制之后,基于所述唤醒词唤醒的电子设备在被唤醒后执行与所述第二信号所对应的功能指令。
一种语音唤醒应答处理装置,包括:
采集模块,用于采集语音获得语音信号;
第一确定模块,用于若所述语音信号中包含预定的唤醒词时,确定所述唤醒词所对应的第一信号与所述第一信号之后的第二信号之间的连续性;
第二确定模块,用于若所述连续性满足预定连续条件,确定进入第一语音唤醒应答机制;
第三确定模块,用于若所述连续性不满足所述预定连续条件,确定提供所述语音的目标用户的偏好信息;
第一进入模块,用于若所述偏好信息指示所述目标用户偏好使用所述第一语音唤醒应答机制,确定进入所述第一语音唤醒应答机制。
一种电子设备,包括:
存储器,
处理器,分别及所述存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,实现前述任意一个技术方案提供的所述语音唤醒应答处理方法。
一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被执行后,能够前述任意一个技术方案提供的所述语音唤醒应答处理方法。
本发明实施例提供的技术方案,在电子设备需要被唤醒时,若采集到一个语音信号包括唤醒词和唤醒词以外的语音,会区分唤醒词对应的第一信号和唤醒词以外语音对应的第二信号之间的连续性,若该连续性满足预定连续条件,则直接进入到第一语音唤醒应答机制,若不满足,则查询该目标用户的偏好信息,若偏好信息指示用户偏好第一语音唤醒应答机制,则在第一信号和第二信号不满足预定连续条件时依然进入到第一语音唤醒应答机制;如此,可以更加准确进入到用户想要进入的语音唤醒应答机制,从而实现电子设备更好的唤醒和唤醒词之后的功能指令的执行,减少误操作并提升用户体验。
附图说明
图1为本发明实施例提供的第一种语音唤醒应答处理方法的流程示意图;
图2为本发明实施例提供的第二种语音唤醒应答处理方法的流程示意图;
图3A为本发明实施例提供的一种主界面的示意图;
图3B为本发明实施例提供的另一种主界面的示意图;
图4为本发明实施例提供的一种语音唤醒应答处理装置的结构示意图;
图5为本发明实施例提供的一种语音唤醒应答处理装置的结构示意图;
图6为本发明实施例提供的第三种语音唤醒应答处理方法的流程示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种语音唤醒应答处理方法,包括:
步骤S110:采集语音获得语音信号;
步骤S120:若所述语音信号中包含预定的唤醒词时,确定所述唤醒词所对应的第一信号与所述第一信号之后的第二信号之间的连续性;
步骤S130:若所述连续性满足预定连续条件,确定进入第一语音唤醒应答机制;
步骤S140:若所述连续性不满足所述预定连续条件,确定提供所述语音的目标用户的偏好信息;
步骤S150:若所述偏好信息指示所述目标用户偏好使用所述第一语音唤醒应答机制,确定进入所述第一语音唤醒应答机制。
本实施例可以应用于各种能被语音唤醒的电子设备中,该电子设备可为移动设备。例如,该电子设备可为车载设备。该车载设备可为车辆的中控设备。
需要被唤醒的电子设备可包括:语音唤醒模组及所述语音唤醒模组以外的功能模组。所述功能模组与所述语音唤醒模组连接。所述语音唤醒模组可以唤醒所述功能模组。需要被唤醒的电子设备的功能模组当前处于休眠状态,或电子设备被唤醒之后,功能模组退出休眠状态进入到激活状态。若功能模组处于休眠状态下的功耗是低于处于激活状态下的功耗的。功能模组处于休眠状态时,功能模组的至少部分功能是被屏蔽的。
在一些实施例中,所述功能模组可包括:显示屏和/或处理器。
在本发明实施例中,电子设备支持至少两种语音唤醒应答机制,分别称之为第一语音唤醒应答机制和第二语音唤醒应答机制。在第一语音唤醒应答机制中,若一个语音被转换为语音信号之后通过包括唤醒词和唤醒词以外的内容,会在唤醒电子设备之后,直接根据唤醒词以外的内容执行对应的语音操作。在在第二语音唤醒应答机制中,若一个语音被转换为语音信号之后,若该语音信号包含有唤醒词和唤醒词以外的内容,则会根据唤醒词唤醒电子设备,若是处于第二语音唤醒机制,语音信号中唤醒词以外的内容可能是噪声,若直接将噪声所对应的内容控制电子设备执行对应的操作,则会使得电子设备出现误操作或者误操作概率高等问题。若用户偏好使用第一语音唤醒应答机制,但是由于第一语音唤醒应答机制要求唤醒词对应的第一信号和唤醒词以后语音所对应的第二信号在时域上足够连续,这对用户的说话有一定的要求。若在某一次用户说话的过程中,在唤醒词和唤醒词以外的内容之间有稍微的停顿,若仅根据当前语音识别进入到第二语音唤醒机制,则电子设备能够基于唤醒词被唤醒,但是语音信号中唤醒词以外的部分内容就被忽略了,用户可能需要重新说一遍功能指令,从而导致用户使用体验差;电子设备对与唤醒词一起说的功能指令无法执行的问题。
故在本实施例中,为了减少上述这种情况,在本实施例中,首先会检测语音信号中唤醒词对应的第一信号和唤醒词以外的内容对应的第二信号是否足够连续。这种连续性可由第一信号和第二信号在时域上的间隔来体现。例如,检测唤醒词所对应的最后一个子信号,与唤醒词以外的其他内容所对的首个子信号,在时域上的间隔,若该间隔小于或等于间隔阈值,可认为第一信号和第二信号满足所述预定连续条件,若第一信号的最后一个子信号和第二信号的首个子信号之间的时间间隔大于所述间隔阈值,可认为所述第一信号和第二信号不满足所述预定连续条件。在一些实施例中,所述间隔阈值是静态设置的值,例如,根据目标用户说话时采集的历史语音数据,确定出用户说话的急缓程度,从而生成与目标用户说话急缓程度相适配的所述间隔阈值。
在还有一些实施例中,所述方法还包括:
分析所述第一信号,确定所述第一信号中对应于所述唤醒词不同组成部分之间的时间间隔;
根据所述时间间隔,确定所述间隔阈值。
例如,同一个目标用户有时候心情急切,说话比较着急;可能即便出现断句,若采用静态的统一间隔阈值时会被认为是同一句话,为了减少这种误识别。在本实施例中,会分析第一信号得到唤醒词内部不同组成部分之间的时间间隔,该时间间隔反应了目标用户当前的说话急缓程度。基于当前的即缓程度动态生成所述间隔阈值。
例如,唤醒词的文本内容为“小A,你好!”,则“小A”和“你好”是唤醒词的两个不同组成部分,这两个不同组成部分对应了第一信号的两个子信号,可以将这两个子信号的时间间隔作为所述间隔阈值,或者,将这两个子信号的时间间隔的预定倍数作为所述间隔阈值,该预定倍数可为近似于1的正数,例如1.2、1.3、0.9或1.5等取值。在一些实施例中,若唤醒词可以拆分成3个或3个以上的不同组成部分时,则第一信号的任意相邻两个子信号之间会计算出多个时间间隔,具体实现时可以通过一定的函数关系计算出所述间隔阈值。例如,求解各个时间间隔的均值,然后基于该时间间隔的均值得到所述间隔阈值。
在本实施例中若第一信号和第二信号当前是满足预定连续条件,说明目标用户通过故意连续说出唤醒词和功能指令,在唤醒电子设备的同时使得电子设备被唤醒之后能够立即执行功能指令。此处的功能指令为所述唤醒电子设备的唤醒指令以外的任意指令。故在本实施例中的步骤S130中所述语音唤醒模组会直接进入所述第一语音唤醒应答机制。
若第一信号和第二信号不连续,则语音唤醒模块会查询目标用户的偏好信息,根据用户的偏好信息确定出该用户是偏好或习惯第一语音唤醒应答机制还是习惯于第二语音唤醒应答机制。若该用户是习惯第一语音唤醒应答机制的用户,则即便当前语音信号中第一信号和第二信号不连续,为了满足该用户的需求,减少用户在说出语音时没有使得第一信号和第二信号足够连续导致不能进入到目标用户想要进入的第一语音唤醒应答机制。在本实施例中,语音唤醒模组会自动进入到所述第一语音唤醒应答机制,同样地,电子设备被唤醒后会自动执行或立即执行唤醒词之后的功能指令,以提升用户体验。
所述偏好信息可包括:至少用户是否偏好第一语音唤醒应答机制的第一指示标签和/或至少用户是否偏好第二语音唤醒应答机制的第二指示标签。
在一些实施例中,如图2所示,所述方法还包括:
步骤S160:若所述偏好信息指示所述目标用户偏好使用第二语音唤醒应答机制,确定进入第二语音唤醒应答机制。
若所述偏好信息指示目标用户偏好使用第二语音唤醒应答机制,则说明当前用户没有需求使用第一语音唤醒应答机制,唤醒词以后的语音信号则有很高的概率是噪声。
在本实施例中,若语音唤醒模组处于第一语音唤醒应答模式,会产生一个唤醒信号唤醒功能模组,并立即将功能指令传输给唤醒的功能模组。若语音唤醒模组处于第二语音唤醒应答模式,则语音唤醒模组可能会丢弃第二信号或第二信号所对应的功能指令。或者,语音唤醒模组会延迟向所述功能模组发送所述功能指令。或者,所述语音唤醒模组会在发送所述功能指令时同时发送一个标注信息,该标注信息标注该功能指令可能是有误的指令,如此功能模组需要进一步确定是否立即执行或者直接执行所述功能指令,还是基于功能指令输出一个提示信息,然后基于用户作用于所述提示信息的反馈指令来确定是否执行所述功能指令,以减少电子设备的误操作。
在一些实施例中,所述方法包括:可直接根据当前语音唤醒模组进入的语音唤醒应答机制,更新所述目标用户的偏好信息。
在一些实施例中,所述方法还包括:在确定进入所述第二语音唤醒应答机制时,电子设备基于所述唤醒词唤醒进入主界面。
在本实施例中,所述主界面可为显示屏显示的桌面。在所述桌面上显示有一个或多个应用图标。在一些实施例中,所述主界面还可以是显示有一个或多个应用界面的桌面。总之,本实施例中,所述主界面至少包括桌面。图3A和图3B为本发明实施例提供的两种不同形式的主界面。在图3A所示的主界面上设置有各种应用图标。在图3B所示的主界面上并列显示有多个小部件(Widget),这些小部件可为应用的应用界面。
若语音唤醒模组进入的是第二语音唤醒应答机制,所述电子设备的功能模组被唤醒之后,不会立即执行所述功能指令。例如,在一些实施例中,所述方法还包括:
在所述电子设备进入所述主界面之后,根据所述第二信号所对应的功能指令输出提示信息;
若接收到作用于所述提示信息的确认指令,所述电子设备执行所述功能指令。
所述确认指令为前述反馈指令的一种,若接收到确认指令,则可以确定对应的功能指令无误,不会产生误操作,故执行所述功能指令。
若接收到作用于所述提示信息的反馈指令为否认指令,则电子设备丢弃所述功能指令。在一些实施例中,所述电子设备还会关闭所述提示信息。
在一些实施例中,若所述电子设备有输出提示信息,所述方法还包括:
若接收到所述确认指令,以所述第一语音唤醒应答机制作为本次所述目标用户想要使用的语音唤醒应答机制,更新所述目标用户的偏好信息。
由于在进入第二语音唤醒应答机制之后,用户通过输入确认指令指示执行对应的功能指令,说明用户当前想要进入到第一语音唤醒应答模式,故以第一语音唤醒应答机制作为本次所述目标用户想要使用的语音唤醒应答机制,更新所述目标用户的偏好信息,以获得更加精准用户的偏好信息。
在一些实施例中,所述方法还包括:
若接收到所述提示信息的否认指令,根据当前进入的语音唤醒应答机制,更新所述目标用户的偏好信息。
此处的否认指令包括两种,一种是:用户主动输入的否认指令,例如,点击了屏幕显示的取消控件,或者,通过语音指示取消等。另一种是:输出提示信息之后的预定时间内未收到用户反馈,这是一种消极的否认指令。
若当前检测到的是否认指令,说明电子设备当前进入的语音唤醒应答机制是正确的,则可以直接根据当前进入的语音唤醒应答机制,更新所述目标用户的偏好信息。
在还有一些实施例中,若进入到第二语音唤醒应答机制之后,电子设备没有输出提示信息,则在可以直接根据当前进入的语音唤醒应答机制更新所述偏好信息。
根据当前进入的语音唤醒应答机制,更新所述目标用户的偏好信息。
在本实施例中,会根据语音唤醒模组当前进入的语音唤醒应答机制,来更新目标用户的偏好信息。例如,统计目标用户所使用的第一语音唤醒应答机制和/或第二语音唤醒应答机制的频次,若第一语音唤醒应答机制的使用频次高于第二语音唤醒应答机制的使用频次,则生成指示用户偏好第一语音唤醒应答机制的偏好信息,否则可生成指示用户偏好第二语音唤醒应答机制的偏好信息。
再例如,在一些实施例中除了以不同语音唤醒应答机制的使用频次作为偏好信息的生成依据,还会以目标用户在近一段时间T内使用不同语音唤醒应答机制的变化趋势,来确定所述偏好信息。例如,虽然在T1内,用户使用第一语音唤醒应答机制的频率高于使用第二语音唤醒应答机制的频率,但是在当前时刻以前的T2时间内,用户都是使用的第二语音唤醒应答机制。T2所对应的时长小于T1所对应的时长,则说明用户越来越偏好第二语音唤醒应答机制,这也是在偏好信息的生成过程中需要考虑的因素。故在一些实施例中,会结合用户使用不同语音唤醒应答机制的频次和/或变化趋势,共同生成所述偏好信息。
在还有一些实施例中,电子设备被唤醒之后,启动深度学习模型来根据本次进入的语音唤醒应答机制更新所述偏好信息。在一些实施例中,所述语音唤醒模块还可以将采集得到的整个语音信号和最终进入的语音唤醒应答机制传输给功能模组(例如,处理器),由处理器基于深度学习模型得到用户属性信息。该用户属性信息包括所述偏好信息。在一些情况下,所述用户属性信息还可包括:前述的间隔阈值。
总之,在本发明实施例中,用户不用手动去设置自己偏好的语音唤醒应答机制,电子设备会自动学习用户偏好的语音唤醒应答机制,并且自动更新,以满足用户不同时期的不同偏好。
在一些实施例中,所述方法还包括:
从所述语音信号中提取音频特征;
根据所述音频特征识别所述目标用户。
由于不同的用户习惯不同,在本实施例中还会利用所述语音信号提取出音频特征,该音频特征包括但不限于声纹特征,该纹信息可以作为识别不同用户的生物特征,该声纹特征可以用于获取所述目标用户的偏好信息。在一些实施例中,该音频特征还可包括声纹特征以外的其他特征,例如,指示不同用户说话的响度和/或停顿节奏等特征,这些特征同样可以用于标识特定的用户。
在一些实施例中,所述方法还包括:在确定进入第一语音唤醒应答机制之后,基于所述唤醒词唤醒的电子设备在被唤醒后执行与所述第二信号所对应的功能指令。
如图4所示,本实施例提供一种语音唤醒应答处理装置,包括:
采集模块110,用于采集语音获得语音信号;
第一确定模块120,用于若所述语音信号中包含预定的唤醒词时,确定所述唤醒词所对应的第一信号与所述第一信号之后的第二信号之间的连续性;
第二确定模块130,用于若所述连续性满足预定连续条件,确定进入第一语音唤醒应答机制;
第三确定模块140,用于若所述连续性不满足所述预定连续条件,确定提供所述语音的目标用户的偏好信息;
第一进入模块150,用于若所述偏好信息指示所述目标用户偏好使用所述第一语音唤醒应答机制,确定进入所述第一语音唤醒应答机制。
在一些实施例中,所述采集模块110、第一确定模块120、第二确定模块130、第三确定模块140及所述第一进入模块150均可为程序模块。所述程序模块被处理器执行后,能够实现前述的语音信号的采集、唤醒词和唤醒词之后内容分别对应的第一信号和第二信号之间的连续性;若连续性满足预定连续条件,则确定第一语音唤醒应答机制,若连续性不满足预定连续条件,则进一步根据用户偏好信息确定是否进入第一语音唤醒应答机制,如此,可以更加准确的进入到用户想要进入的语音唤醒应答机制,满足客户的个性需求。
在另一些实施例中,所述采集模块110、第一确定模块120、第二确定模块130、第三确定模块140及所述第一进入模块150可为软硬结合模块;所述软硬结合模块可包括:各种编程阵列;该编程阵列可包括:复杂可编程阵列和现场可编程阵列。
在还有一些实施例中,所述采集模块110、第一确定模块120、第二确定模块130、第三确定模块140及所述第一进入模块150可为纯硬件模块,该纯硬件模块可包括专用集成电路。
在一些实施例中,所述装置还包括:
第二进入模块,用于若所述偏好信息指示所述目标用户偏好使用第二语音唤醒应答机制,确定进入第二语音唤醒应答机制。
在一些实施例中,所述装置还包括:
执行模块,用于在确定进入所述第二语音唤醒应答机制时,电子设备基于所述唤醒词唤醒进入主界面。
在一些实施例中,所述装置还包括:
提示模块,用于在所述电子设备进入所述主界面之后,根据所述第二信号所对应的功能指令输出提示信息;
所述执行模块,还用于若接收到作用于所述提示信息的确认指令,所述电子设备执行所述功能指令。
在一些实施例中,所述装置还包括:
更新模块,用于若接收到所述确认指令,以所述第一语音唤醒应答机制作为本次所述目标用户想要使用的语音唤醒应答机制,更新所述目标用户的偏好信息。
在一些实施例中,所述装置还包括:
所述更新模块,还用于若接收到所述提示信息的否认指令,根据当前进入的语音唤醒应答机制,更新所述目标用户的偏好信息。
在一些实施例中,所述装置还包括:
提取模块,用于从所述语音信号中提取音频特征;
识别模块,用于根据所述音频特征识别所述目标用户。
在一些实施例中,所述装置还包括:
执行模块,用于在确定进入第一语音唤醒应答机制之后,基于所述唤醒词唤醒的电子设备在被唤醒后执行与所述第二信号所对应的功能指令。
以下结合上述任意实施例提供几个具体示例:
本示例在于对同一台汽车的用户,通过音频特征(例如,前述的声纹特征)进行分类,确定每个用户使用oneshot语音交互的习惯,从而更智能化、更个性化的语音唤醒交互体验。本方案核心在于设计一个基于不同用户的oneshot推荐模型。此处的oneshot对应于前述第一语音唤醒应答机制。
如图5所示,本示例提供的语音唤醒应答处理装置可具体可包括:
音频特征提取模型:采集用户所说的唤醒词的语音信号,通过音频特征提取(比如MFCC特征提取算法)识别不同用户,确定出当前操作的目标用户。
音频分类器:对于一定时间范围内,n天,统计该分类用户使用oneshot和非oneshot的次数概率,从而判定该用户的偏好;此处的非oneshot对应于前述第二语音唤醒应答机制。
语音识别引擎:识别出语音;该语音识别引擎可为前述语音唤醒模组的组成部分;
语音检测模型(例如,语音获得检测VAD模型):检测车内是否有声音;利用VAD模型可以确定当前所在环境是否有人说话,从而启动语音采集。在一些情况下,该VAD模型还可以用于检测第一信号和第二信号之间的时间间隔。该VAD模型可以通过语音端点检测或语音边界检测,可以检测出两端或两个语音信号之间的静默时间(即间隔时间);
oneshot决策模型:语音引擎识别出唤醒词,且基于VAD检测其后的语音预料与唤醒词无显著的时间间隔,即为oneshot;如果声音信号不连续,即有信号中断,则进一步判断用户的偏好,给与oneshot或者非oneshot结果。最后再将判定结果汇报给音频分类器。如此,在不同用户使用的过程中,电子设备自动学习用户的使用两种语音唤醒应答机制的偏好信息。
如此,同一台汽车的用户,通过音频特征进行分类,确定每个用户使用oneshot语音交互的习惯,从而更智能化、更个性化的语音唤醒交互体验;降低了周围噪声对于oneshot的干扰,从而提高判定正确率;基于偏好,可以快速给与用户喜欢的人机交互体验,减少了音频采集及判定时间。
示例2:
如图6所示,本示例提供一种语音唤醒应答处理方法,包括:
语音录入;
识别出唤醒词;
提取音频特征,由分类器保存,可以用于识别不同的用户;该音频特征可包括但不限于声纹特征;
音频特征为首次采集到,则初始化用户初始的偏好非oneshot;
判断唤醒词和唤醒词之后语音是否连续,
若是,进入oneshot;
若否,查找分类器;
基于分类器的分类结果,判断用户是否偏好oneshot;
若是,则进入oneshot;
若否,则进入非oneshot;
根据当前进入的语音唤醒应答机制,由分类器记录用户偏好。
本实施例还提供一种电子设备,包括:
存储器,用于信息存储;
处理器,与存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,控制所述收发器的信息收发并实现前述任意实施例提供的语音唤醒应答处理方法,例如,如图1、图2及图6所示的方法。
所述处理器可为各种类型的处理器件,例如,中央处理器、微处理器、数字信号处理器或者可编程阵列等。
所述处理器,可以通过总线与所述存储器连接,例如,所述总线可为集成电路总线等。
在一些实施例中,所述电子设备还包括:语音唤醒模组,该语音唤醒模组至少包括麦克风及与麦克风连接的语音识别引擎等。
本实施例还提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令;所述计算机可执行指令被执行后,能够实现前述任意实施例提供的语音唤醒应答处理方法,例如,如图1、图2及图6所示的方法。本实施例提供的计算机存储介质可为非瞬间存储介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种语音唤醒应答处理方法,其特征在于,包括:
采集语音获得语音信号;
若所述语音信号中包含预定的唤醒词时,确定所述唤醒词所对应的第一信号与所述第一信号之后的第二信号之间的连续性;
若所述连续性满足预定连续条件,确定进入第一语音唤醒应答机制;
若所述连续性不满足所述预定连续条件,确定提供所述语音的目标用户的偏好信息;
若所述偏好信息指示所述目标用户偏好使用所述第一语音唤醒应答机制,确定进入所述第一语音唤醒应答机制。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述偏好信息指示所述目标用户偏好使用第二语音唤醒应答机制,确定进入第二语音唤醒应答机制。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在确定进入所述第二语音唤醒应答机制时,电子设备基于所述唤醒词唤醒进入主界面。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述电子设备进入所述主界面之后,根据所述第二信号所对应的功能指令输出提示信息;
若接收到作用于所述提示信息的确认指令,所述电子设备执行所述功能指令。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若接收到所述确认指令,以所述第一语音唤醒应答机制作为本次所述目标用户想要使用的语音唤醒应答机制,更新所述目标用户的偏好信息。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若接收到所述提示信息的否认指令,根据当前进入的语音唤醒应答机制,更新所述目标用户的偏好信息。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
从所述语音信号中提取音频特征;
根据所述音频特征识别所述目标用户。
8.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在确定进入第一语音唤醒应答机制之后,基于所述唤醒词唤醒的电子设备在被唤醒后执行与所述第二信号所对应的功能指令。
9.一种语音唤醒应答处理装置,其特征在于,包括:
采集模块,用于采集语音获得语音信号;
第一确定模块,用于若所述语音信号中包含预定的唤醒词时,确定所述唤醒词所对应的第一信号与所述第一信号之后的第二信号之间的连续性;
第二确定模块,用于若所述连续性满足预定连续条件,确定进入第一语音唤醒应答机制;
第三确定模块,用于若所述连续性不满足所述预定连续条件,确定提供所述语音的目标用户的偏好信息;
第一进入模块,用于若所述偏好信息指示所述目标用户偏好使用所述第一语音唤醒应答机制,确定进入所述第一语音唤醒应答机制。
10.一种电子设备,其特征在于,包括:
存储器,
处理器,分别及所述存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,实现权利要求1至8任一项提供的所述语音唤醒应答处理方法。
11.一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被执行后,能够实现权利要求1至8任一项提供的所述语音唤醒应答方法。
CN201811505802.2A 2018-12-10 2018-12-10 语音唤醒应答处理方法及装置、电子设备及存储介质 Active CN109686368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811505802.2A CN109686368B (zh) 2018-12-10 2018-12-10 语音唤醒应答处理方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811505802.2A CN109686368B (zh) 2018-12-10 2018-12-10 语音唤醒应答处理方法及装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109686368A true CN109686368A (zh) 2019-04-26
CN109686368B CN109686368B (zh) 2020-09-08

Family

ID=66187265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811505802.2A Active CN109686368B (zh) 2018-12-10 2018-12-10 语音唤醒应答处理方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109686368B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349579A (zh) * 2019-07-15 2019-10-18 北京梧桐车联科技有限责任公司 语音唤醒处理方法及装置、电子设备及存储介质
CN110827820A (zh) * 2019-11-27 2020-02-21 北京梧桐车联科技有限责任公司 语音唤醒方法、装置、设备、计算机存储介质及车辆
CN111833874A (zh) * 2020-07-10 2020-10-27 上海茂声智能科技有限公司 一种基于标识符的人机交互方法、系统、设备和存储介质
CN112331197A (zh) * 2020-08-03 2021-02-05 北京京东尚科信息技术有限公司 电子设备的响应方法、响应装置、计算机系统及存储介质
CN112751678A (zh) * 2020-12-29 2021-05-04 美智光电科技股份有限公司 唤醒方法、语音设备、网关设备、装置和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005270620A (ja) * 2004-07-20 2005-10-06 Nariyuki Motoi 自己改善関連データの提供方法及び自己改善コンテンツの再生プログラム
CN103198831A (zh) * 2013-04-10 2013-07-10 威盛电子股份有限公司 语音操控方法与移动终端装置
CN106782554A (zh) * 2016-12-19 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN107886944A (zh) * 2017-11-16 2018-04-06 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005270620A (ja) * 2004-07-20 2005-10-06 Nariyuki Motoi 自己改善関連データの提供方法及び自己改善コンテンツの再生プログラム
CN103198831A (zh) * 2013-04-10 2013-07-10 威盛电子股份有限公司 语音操控方法与移动终端装置
CN104104790A (zh) * 2013-04-10 2014-10-15 威盛电子股份有限公司 语音操控方法与移动终端装置
CN106782554A (zh) * 2016-12-19 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN107886944A (zh) * 2017-11-16 2018-04-06 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349579A (zh) * 2019-07-15 2019-10-18 北京梧桐车联科技有限责任公司 语音唤醒处理方法及装置、电子设备及存储介质
CN110827820A (zh) * 2019-11-27 2020-02-21 北京梧桐车联科技有限责任公司 语音唤醒方法、装置、设备、计算机存储介质及车辆
CN111833874A (zh) * 2020-07-10 2020-10-27 上海茂声智能科技有限公司 一种基于标识符的人机交互方法、系统、设备和存储介质
CN111833874B (zh) * 2020-07-10 2023-12-05 上海茂声智能科技有限公司 一种基于标识符的人机交互方法、系统、设备和存储介质
CN112331197A (zh) * 2020-08-03 2021-02-05 北京京东尚科信息技术有限公司 电子设备的响应方法、响应装置、计算机系统及存储介质
CN112751678A (zh) * 2020-12-29 2021-05-04 美智光电科技股份有限公司 唤醒方法、语音设备、网关设备、装置和可读存储介质

Also Published As

Publication number Publication date
CN109686368B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN109686368A (zh) 语音唤醒应答处理方法及装置、电子设备及存储介质
US10410630B2 (en) System and method for speech-enabled personalized operation of devices and services in multiple operating environments
CN106782536B (zh) 一种语音唤醒方法及装置
CN110148405B (zh) 语音指令处理方法及装置、电子设备及存储介质
EP3611724A1 (en) Voice response method and device, and smart device
CN109192210B (zh) 一种语音识别的方法、唤醒词检测的方法及装置
CN105009203A (zh) 用于检测语音命令的方法和装置
CN110070857B (zh) 语音唤醒模型的模型参数调整方法及装置、语音设备
CN110310623A (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
US20080319747A1 (en) Spoken man-machine interface with speaker identification
CN110462647B (zh) 电子设备及执行电子设备的功能的方法
CN110544468B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN110349579A (zh) 语音唤醒处理方法及装置、电子设备及存储介质
CN108388553B (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
US20200265843A1 (en) Speech broadcast method, device and terminal
CN108632653A (zh) 语音管控方法、智能电视及计算机可读存储介质
CN114360527B (zh) 车载语音交互方法、装置、设备及存储介质
CN110082726A (zh) 声源定位方法及装置、定位设备及存储介质
CN110580897B (zh) 音频校验方法、装置、存储介质及电子设备
CN109102807A (zh) 个性化语音数据库创建系统、语音识别控制系统与终端
CN108806699B (zh) 语音反馈方法、装置、存储介质及电子设备
CN106850996A (zh) 一种移动终端的闹钟启动方法及装置
CN106971715A (zh) 一种应用于机器人的语音识别装置
CN110517679A (zh) 一种人工智能的音频数据处理方法及装置、存储介质
CN115083412A (zh) 语音交互方法及相关装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant