CN111261160B - 一种信号处理方法及装置 - Google Patents
一种信号处理方法及装置 Download PDFInfo
- Publication number
- CN111261160B CN111261160B CN202010064139.8A CN202010064139A CN111261160B CN 111261160 B CN111261160 B CN 111261160B CN 202010064139 A CN202010064139 A CN 202010064139A CN 111261160 B CN111261160 B CN 111261160B
- Authority
- CN
- China
- Prior art keywords
- wake
- recognition engine
- word
- voice recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 44
- 238000000034 method Methods 0.000 claims description 77
- 230000006854 communication Effects 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 33
- 230000002618 waking effect Effects 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 12
- 239000008186 active pharmaceutical agent Substances 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 238000013500 data storage Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本申请提供了一种信号处理方法及装置,音频设备获得语音输入信号后,通过响应该语音输入信号包含的第一唤醒词,唤醒音频设备,并确定与该第一唤醒词相匹配的电子设备中的第一语音识别引擎,从而按照该第一语音识别引擎的唤醒规则,基于该第一唤醒词生成针对该第一语音识别引擎的目标信息,发送至电子设备,以使电子设备利用该目标信息自动唤醒第一语音识别引擎。可见,本申请只需要用户记忆音频设备的唤醒词,不需要记忆电子设备中多个语音识别引擎各自的唤醒词,减少了因记忆出错导致的唤醒错误率,提高了电子设备语音控制效率及可靠性。
Description
技术领域
本申请主要涉及通信技术领域,更具体地说是涉及一种信号处理方法及装置。
背景技术
如今大部分电子设备具有语音识别能力,用户可以输出唤醒词来唤醒电子设备,如A手机,用户可以说“你好A”,启动A手机,唤醒A手机的语音识别引擎(如语音助手),之后,借助语音助手实现对A手机的语音控制,无需用户手动操作,非常方便。
但是,对于不同厂家的语音助手所主打功能和擅长的领域不同,且配置有各自的唤醒词,当用户需要使用多个语音助手,必须记住这多个语音助手的多个唤醒词,非常繁琐,且降低了电子设备的语音控制效率及可靠性。
发明内容
有鉴于此,为了实现发明目的,本申请提供了一种信号处理方法,所述方法包括:
音频设备获得语音输入信号;
获取所述语音输入信号包含的第一唤醒词,响应所述第一唤醒词,唤醒所述音频设备,并确定与所述第一唤醒词相匹配的第一语音识别引擎;
按照所述第一语音识别引擎的唤醒规则,基于所述第一唤醒词生成针对所述第一语音识别引擎的目标信息,所述第一语音识别引擎是指能够与所述音频设备通信连接的电子设备配置的任意一个语音识别引擎;
将所述目标信息发送至所述电子设备,以唤醒所述电子设备中的所述第一语音识别引擎。
在一些实施例中,所述按照所述第一语音识别引擎的唤醒规则,利用所述第一唤醒词,生成针对所述第一语音识别引擎的目标信息,包括:
获得所述第一语音识别引擎对应的第二唤醒词;
利用所述第二唤醒词,更新所述语音输入信号包含的所述第一唤醒词,得到目标信息。
在一些实施例中,所述按照所述第一语音识别引擎的唤醒规则,利用所述第一唤醒词,生成针对所述第一语音识别引擎的目标信息,还包括:
检测所述第一语音识别引擎是否属于特定语音识别引擎;如果否,执行步骤所述获得所述第一语音识别引擎的第二唤醒词;
如果是,生成与所述第一唤醒词对应的唤醒指令;
所述将所述目标信息发送至所述电子设备,以唤醒所述电子设备中的所述第一语音识别引擎,包括:
将所述唤醒指令发送至所述电子设备,以使所述电子设备调用所述第一语音识别引擎的应用程序接口,将所述唤醒指令发送至所述第一语音识别引擎,唤醒所述第一语音识别引擎。
在一些实施例中,所述方法还包括:
获取所述电子设备配置的多个语音识别引擎各自的第二唤醒词;
响应配置指令,从所述多个语音识别引擎中,确定与所述音频设备的第一唤醒词关联的第一语音识别引擎;
建立所述第一唤醒词与所述第一语音识别引擎的第二唤醒词之间的匹配关系。
在一些实施例中,所述响应配置指令,从所述多个语音识别引擎中,确定与所述音频设备的第一唤醒词关联的第一语音识别引擎,包括以下中的至少一种:
解析配置指令,得到与所述音频设备的第一唤醒词关联的第一语音识别引擎;
响应配置指令,从所述多个语音识别引擎中,选择与第一唤醒词关联的唤醒频次最高的语音识别引擎为第一语音识别引擎;
如果所述语音输入信号包含所述第一唤醒词和控制指令,响应配置指令,从所述多个语音识别引擎中,选择与所述控制指令匹配的第一应用对应的语音识别引擎为第一语音识别引擎。
又一方面,本申请还提出了一种信号处理方法,所述方法包括:
接收音频设备发送的目标信息,所述目标信息是所述音频设备按照第一语音识别引擎的唤醒规则,利用语音输入信息包含的第一唤醒词生成的,所述第一语音识别引擎是指电子设备配置的任意一个语音识别引擎;
基于所述目标信息,唤醒所述第一语音识别引擎。
在一些实施例中,所述目标信息具体为唤醒指令,所述基于所述目标信息,唤醒所述第一语音识别引擎,包括:
调用所述第一语音识别引擎的应用程序接口,将所述唤醒指令发送至所述第一语音识别引擎,唤醒所述第一语音识别引擎。
在一些实施例中,所述目标信息具体为目标语音信号,所述基于所述目标信息,唤醒所述第一语音识别引擎,包括:
将所述目标语音信号发送至所述电子设备的音频采集器;
对所述音频采集器转发的所述目标音频信号进行识别,得到所述第二唤醒词;
响应所述第二唤醒词,唤醒所述第一语音识别引擎。
又一方面,本申请还提出了一种信号处理装置,所述装置包括:
语音输入信号获得模块,用于获得语音输入信号;
第一唤醒词获取模块,用于获取所述语音输入信号包含的第一唤醒词;
第一唤醒控制模块,用于响应所述第一唤醒词,唤醒所述音频设备,并确定与所述第一唤醒词相匹配的第一语音识别引擎;
目标信息生成模块,用于按照所述第一语音识别引擎的唤醒规则,基于所述第一唤醒词生成针对所述第一语音识别引擎的目标信息,所述第一语音识别引擎是指能够与所述音频设备通信连接的电子设备配置的任意一个语音识别引擎;
目标信息发送模块,用于将所述目标信息发送至所述电子设备,以唤醒所述电子设备中的所述第一语音识别引擎。
又一方面,本申请还提出了一种信号处理装置,所述装置包括:
目标信息接收模块,用于接收音频设备发送的目标信息,所述目标信息是所述音频设备按照第一语音识别引擎的唤醒规则,利用语音输入信息包含的第一唤醒词生成的,所述第一语音识别引擎是指电子设备配置的任意一个语音识别引擎;
唤醒控制模块,用于基于所述目标信息,唤醒所述第一语音识别引擎。
由此可见,与现有技术相比,本申请提供了一种信号处理方法及装置,音频设备获得语音输入信号后,通过响应该语音输入信号包含的第一唤醒词,唤醒音频设备,并确定与该第一唤醒词相匹配的电子设备中的第一语音识别引擎,从而按照该第一语音识别引擎的唤醒规则,基于该第一唤醒词生成针对该第一语音识别引擎的目标信息,发送至电子设备,以使电子设备利用该目标信息自动唤醒第一语音识别引擎。可见,本申请只需要用户记忆音频设备的唤醒词,不需要记忆电子设备中多个语音识别引擎各自的唤醒词,减少了因记忆出错导致的唤醒错误率,提高了电子设备语音控制效率及可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了适用于本申请提出的信号处理方法的一可选系统的结构示意图;
图2示出了实现本申请提出的信号处理方法的一种音频设备的可选示例的硬件结构示意图;
图3示出了实现本申请提出的信号处理方法的一种电子设备的可选示例的硬件结构示意图;
图4示出了适用于音频设备的本申请提出的信号处理方法的一可选示例的流程示意图;
图5示出了适用于音频设备的本申请提出的信号处理方法的又一可选示例的流程示意图;
图6示出了适用于音频设备的本申请提出的信号处理方法的又一可选示例的流程示意图;
图7示出了本申请提出的信号处理方法中,获取目标信息的可选实现方式的场景示意图;
图8示出了适用于电子设备的本申请提出的信号处理方法的一可选示例的流程示意图;
图9a示出了适用于电子设备的本申请提出的信号处理方法的一可选示例的流程示意图;
图9b示出了适用于电子设备的本申请提出的信号处理方法的一可选示例的场景示意图;
图10示出了本申请提出的信号处理方法的一可选示例的信令流程示意图;
图11示出了适用于音频设备的本申请提出的信号处理装置的一可选示例的结构示意图;
图12示出了适用于音频设备的本申请提出的信号处理装置的又一可选示例的结构示意图;
图13示出了适用于音频设备的本申请提出的信号处理装置的又一可选示例的结构示意图;
图14示出了适用于音频设备的本申请提出的信号处理装置的又一可选示例的结构示意图;
图15示出了适用于电子设备的本申请提出的信号处理装置的一可选示例的结构示意图;
图16示出了适用于电子设备的本申请提出的信号处理装置的又一可选示例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
应当理解,本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换该词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
另外,本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
针对背景技术部分描述的技术问题,本申请希望不需要用户记忆过多唤醒词,降低用户记忆工作量,避免因记忆出错造成的对电子设备使用的各种不便,从而提高电子设备的语音控制效率及可靠性。
具体的,参照图1,示出的适用于本申请提出的信号处理方法的一可选系统的结构示意图,本申请可以配置一个音频设备100,由该音频设备通信连接电子设备200,为电子设备200提供语音出入口,即由唤醒后音频设备100向电子设备200发送信息,来唤醒电子设备200安装的多个语音唤醒引擎(即语音助手)中的任一语音唤醒引擎,这样,用户只需要记忆该音频设备100的唤醒词,以唤醒该音频设备即可,不需要记忆电子设备安装的多个语音唤醒引擎各自的唤醒词。
而且,由于本申请预先确定与音频设备100的第一唤醒词相匹配的第一语音识别引擎,即电子设备200安装的多个语音识别引擎中的任一个语音识别引擎,可以根据实际需求或习惯等确定,所以,本申请只需要配置一个音频设100备,不需要为每一种语音识别引擎配置一个音频设备100,用户可以直接在电子设备200中安装所需的语音识别引擎,即可获得不同厂家的语音识别引擎的服务,降低了语音控制实现成本,提高了用户语音控制体验感受。
如上述分析,由于电子设备200的音频采集器(如麦克风)不需要直接采集用户输入的语音输入信号,音频设备100唤醒前,电子设备200中的语音识别引擎不会获得音频采集器采集到的语音信号,就不需要电子设备200的音频采集器一直工作,解决了现有技术中,因电子设备需要随时响应用户的请求,其音频采集器需要一直工作,很容易造成窃听等隐私事件发生,降低电子设备的使用安全性问题。
需要说明,关于如图1所示的系统如何实现本申请提出的信号处理方法的具体实现,可以参照下文方法实施例相应部分的描述,本实施例不做详述。
示例性的,结合上述实施例的描述,参照图2,为实现本申请提出的信号处理方法的音频设备的一可选示例的硬件结构示意图,该音频设备可以是智能音箱等终端设备,本申请对该音频设备的具体产品类型不做限定,图2示出的音频设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图2所示,本实施例提出的音频设备可以包括但并不局限于:通信接口11、音频采集器12、存储器13和处理器14,其中:
上述通信接口11、音频采集器12、存储器13和处理器14各自的数量均可以为至少一个,具体可以依据该音频设备的功能需求确定。且通信接口11、音频采集器12、存储器13和处理器14均可以接入通信总线,以实现相互之间的通信,具体通信过程本申请不做详述。
通信接口11可以为通信模块的接口,如GSM模块、WIFI模块、蓝牙模块等无线通信网络的通信模块的接口,以使音频设备100采用无线通信方式,实现与电子设备200的通信连接;当然,该通信模块也可以是有线通信网络的通信模块,这样情况下,音频设备100可以采用有线通信方式,实现与电子设备200的通信连接,本申请对音频设备100与电子设备200之间的通信方式不做限定。
另外,根据实际需要,通信接口11还可以包括如USB接口、串/并口等接口,用于实现音频设备100内部组成部件之间的数据交互,可以根据该音频设备的产品类型确定,本申请不做一一详述。
音频采集器12可以是麦克风等设备,用于采集语音输入信号,本申请对其音频采集器12的具体结构及其实现音频采集的具体过程不做详述。
存储器13可以用于存储从音频设备实现的信号处理方法的程序;处理器14可以用于调用并执行存储器13存储的程序,以实现本申请提出的从音频设备角度描述的信号处理方法的各步骤,具体实现过程可以参照下文方法实施例相应部分的描述,本实施例在此不做详述。
在一些实施例中,存储器13可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器14,可以为数字信号处理器(Digital Signal Processing,DSP)、特定应用集成电路(application-specificintegrated circuit,ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。
在本申请中,存储器13可以包括程序存储区和数据存储区,该程序存储区可以存储至少一个功能(如语音识别功能)所需的应用程序、实现本申请提出的信号处理方法的程序等;数据存储区可以存储音频设备使用过程中所获取或产生的数据,如用户输入的语音输入信号、音频设备的第一唤醒词、各种语音识别引擎的第二唤醒词、语音识别引擎与第一唤醒词的匹配关系等。
应该理解,图2所示的音频设备的结构并不构成对本申请实施例中音频设备的限定,在实际应用中,音频设备可以包括比图2所示的更多或更少的部件,或者组合某些部件,本申请在此不做一一列举。
另外,对于本申请能够上述与音频设备100通信的电子设备200可以包括但并不局限于笔记本电脑、智能手机、平板电脑、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、电子书阅读器、台式计算机等,本申请对电子设备200的产品类型不做限定。
其中,本申请提出的电子设备的硬件组成可以包括通信接口、音频采集器、存储器和处理器,关于该硬件组成的结构,可以参照图2所示的硬件结构,电子设备的这几个组成部件与上述音频设备的通信接口11、音频采集器12、存储器13和处理器14的结构关系及通信功能类似。
需要说明,电子设备的存储器可以用于存储电子设备实现的信号处理方法的程序,处理器还可以包括中央处理器(Central Processing Unit,CPU),通过调用并执行该程序,将实现本申请提出的从电子设备角度描述的信号处理方法的各步骤,具体实现过程可以参照下文从电子设备角度描述的方法实施例的描述,本实施例在此不做详述。
且,若电子设备的存储器包括程序存储区和数据存储区,该程序存储区可以存储至少一个功能(如语音识别功能)所需的应用程序、实现本申请提出的信号处理方法的程序等;数据存储区可以存储电子设备使用过程中所获取或产生的数据,如音频设备发送的目标信息,用户输入的语音输入信号(第一语音识别引擎唤醒后获取的)、各种语音识别引擎的第二唤醒词等。
应该理解,参照图3所示的电子设备的一可选示例的硬件结构示意图,该电子设备还可以包括如感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标、摄像头等输入设备(图3并未示出所有输入设备)中的至少一个,如显示器(如触摸显示面板)、扬声器、振动机构、灯等输出设备(图3并未示出所有输出设备)中的至少一个,各种传感器组成的传感器模组、电源模块、天线等等。图3所示的电子设备的结构并不构成对本申请实施例中电子设备的限定,在实际应用中,电子设备可以包括比图3所示的更多或更少的部件,或者组合某些部件,本申请在此不做一一列举。
下面将先从音频设备角度描述,本申请提出的信号处理方法的实现过程,需要说明,对于音频设备实现的信号处理方法,可以包括但并不局限于以下方法实施例描述的实现方式。
参照图4,示出了本申请提出的信号处理方法的一可选示例的流程示意图,该方法适用于音频设备,如图4所示,本实施例提出的信号处理方法可以包括:
步骤S11,获得语音输入信号;
其中,语音输入信号可以是用户输出的用来唤醒音频设备的语音信号,在实际应用中,该语音输入信号可能仅包含音频设备的唤醒词,如“你好A”;也可能同时包含音频设备的唤醒词,以及对电子设备的控制指令,如“你好A,今天天气怎么样”等,本申请对语音输入信号包含的内容不做限定。
结合上述实施例对音频设备的组成结构的描述,上述语音输入信号可以是音频设备的音频采集器采集得到的,具体采集过程不做详述。
且,为了将音频设备的唤醒词,与电子设备安装的各语音识别引擎的唤醒词的称呼区别开,本申请将音频设备的唤醒词记为第一唤醒词,将各语音识别引擎的唤醒词记为第二唤醒词,本申请对各唤醒词的内容不做限定,可以根据实际需求灵活配置,配置方式不做详述。
步骤S12,获取语音输入信号包含的第一唤醒词;
在一些实施例中,由于本申请预先确定了音频设备的第一唤醒词,本实施例可以对获得的语音输入信号进行语义分析,依据语义分析结果,确定该语音输入信号是否包含第一唤醒词,具体分析过程不做详述。
需要说明,语音输入信号包含第一唤醒词可以指:语音输入信号包含与第一唤醒词内容基本一致的语音信号;或者,语音输入信号包含与第一唤醒词的语义相同的语音信号等。
基于此,在一种可能的实现方式中,本申请可以将获得的语音输入信号直接与第一唤醒词进行比对,若比对结果表明该语音输入信号包含与第一唤醒词相匹配的语音信号(即包含与第一唤醒词内容基本一致的语音信号),确定该语音输入信号包含第一唤醒词;若比对结果表明该语音输入信号未包含与第一唤醒词相匹配的语音信号,可以进一步对语音输入信号进行语义分析,以检测语音输入信号是否包含与第一唤醒词的语义相同的语音信号,如果是,确定语音输入信号包含第一唤醒词;如果否,确定语音输入信号未包含第一唤醒词。本申请对如何检测语音输入信号是否包含第一唤醒词的实现方式不做限定。
其中,第一唤醒词是预先配置的用于唤醒音频设备的唤醒词,本申请对其具体内容不作限定,用户可以根据实际需求或习惯等来配置第一唤醒词,具体配置过程不做详述。
在一种可能的实现方式中,结合上述对本申请发明构思的描述,本申请希望基于第一唤醒词,来唤醒电子设备安装的多个语音识别引擎中的特定语音识别引擎(记为第一语音识别引擎),所以,本申请还可以依据该第一语音识别引擎对应的第二唤醒词,来确定音频设备的第一唤醒词的内容。在一些实施例中,该第一语音识别引擎对应的第二唤醒词,与音频设备的第一唤醒词的内容可以相同或语义相同;在又一些实施例中,音频设备的第一唤醒词,与第一语音识别引擎对应的第二唤醒词的内容或语义也可以不同,而是依据其他要素来确定音频设备的第一唤醒词,本申请在此不做一一详述。
步骤S13,响应第一唤醒词,唤醒音频设备,并确定与第一唤醒词相匹配的第一语音识别引擎;
本实施例中,可以根据实际需求或习惯等要素,从电子设备安装的多个语音识别引擎中,确定与第一唤醒词相匹配的第一语音识别引擎,具体确定方式不做限定。
在一种可能的实现方式中,音频设备可以获取电子设备安装的多个语音识别引擎,响应配置指令,从这多个语音识别引擎中,确定与第一唤醒词关联的第一语音识别引擎。其中,该配置指令可以是基于用户对这多个语音识别引擎的选择操作生成,也可以是基于这多个语音识别引擎的唤醒频次的统计结果生成,本申请对该配置指令的具体生成方式不做限定。
音频设备从语音输入信号得到预设配置的第一唤醒词后,可以响应该第一唤醒词,唤醒音频设备,以使该音频设备的系统进入工作状态,关于如何利用第一唤醒词,唤醒音频设备的实现原理本申请不做详述。之后,按照预先确定的第一唤醒词与语音识别音频的配置关系,确定与第一唤醒词相匹配的第一语音识别引擎,即能够与音频设备通信连接的电子设备配置的任意一个语音识别引擎。
步骤S14,按照第一语音识别引擎的唤醒规则,基于第一唤醒词生成针对第一语音识别引擎的目标信息;
通常情况下,对于不同厂家的语音识别引擎的唤醒规则可能不同,所以,本申请确定用户需要使用电子设备的哪个语音识别引擎(即第一语音识别引擎)之后,可以获取该第一语音识别引擎的唤醒规则,从而按照该唤醒规则,基于语音输入信号包含的第一唤醒词,生成针对该第一语音识别引擎的目标信息。
在一些实施例中,上述唤醒规则可以包括通过向第一语音识别引擎直接发送唤醒指令,以唤醒第一语音识别引擎;或者,通过电子设备的音频采集器输出包含第一语音识别引擎的第二唤醒词的语音信号,来唤醒第一语音识别引擎等等,本申请对上述唤醒规则的内容不做限定。
本申请实际应用中,对于不同的唤醒规则,该目标信息的内容及其生成方式可能不同,如上列举的这两种唤醒规则,相应的目标信息可以是唤醒指令或语音信号等,关于该目标信息的具体生成过程可以参照但并不局限于下文相应实施例的描述。
步骤S15,将目标信息发送至电子设备,以唤醒电子设备中的第一语音识别引擎。
继上述分析,对应不同内容的目标信息,发送至电子设备后,电子设备如何利用该目标信息,唤醒第一语音识别引擎的具体唤醒过程,可以参照该第一语音识别引擎的唤醒规则确定,具体可以参照下文实施例相应部分的描述,本实施例在此不做详述。
综上,本实施例中,将由音频设备获得语音输入信号,若该语音输入信号包含第一唤醒词,将响应该第一唤醒词,唤醒音频设备,并确定与该第一唤醒词相匹配的电子设备中的第一语音识别引擎,建议与该电子设备的通信连接,之后,可以按照该第一语音识别引擎的唤醒规则,基于该第一唤醒词生成针对该第一语音识别引擎的目标信息,发送至电子设备,以使电子设备利用该目标信息自动唤醒第一语音识别引擎,用户不需要记忆电子设备中多个语音识别引擎各自的唤醒词,只需要用户记忆音频设备的唤醒词,可以唤醒电子设备中所需的第一语音识别引擎,减少了因记忆出错导致的唤醒错误率,提高了电子设备语音控制效率及可靠性。
参照图5,示出了本申请提出的信号处理方法的又一可选示例的流程示意图,本实施例可以是对上述方法实施例描述的信号处理方法的一可选细化实现方式,如图5所述,本实施例提出的信号处理方法可以包括:
步骤S21,获得语音输入信号;
步骤S22,获取语音输入信号包含的第一唤醒词,响应第一唤醒词,唤醒音频设备,并确定与第一唤醒词相匹配的第一语音识别引擎;
关于步骤S21和步骤S22的具体实现,可以参照上述步骤S11~步骤S13相应部分的描述,不再赘述。
步骤S23,获得第一语音识别引擎对应的第二唤醒词;
本申请中,可以预先将电子设备配置的各语音识别引擎对应的第二唤醒词输入音频设备,并配置音频设备的第一唤醒词与第一语音识别引擎的关联关系,以使音频设备得到第一唤醒词后,能够快速且准确地确定出与第一唤醒词相匹配的第一语音识别引擎,并获得该第一语音识别引擎对应的第二唤醒词。需要说明,本申请对音频设备获取电子设备配置的各语音识别引擎对应的第二唤醒词的实现方式,各语音识别引擎对应的第二唤醒词的存储方式,以及第一唤醒词与第一语音识别引擎关联关系的获取方式均不作限定。
在一种可能的实现方式中,如图6所示的信号处理方法的又一细化实现方式,在执行步骤S21之前,该方法还可以包括:
步骤S31,获取电子设备配置的多个语音识别引擎各自的第二唤醒词;
在实际应用中,对于能够使用音频设备的各电子设备,均可以通过与该音频设备通信连接,将其配置的各语音识别引擎对应的第二唤醒词发送至音频设备;当然,也可以通过语音或其他输入方式,直接向音频设备输入多个语音识别引擎(如市面上存在的用户经常使用的语义识别引擎等)各自的第二唤醒词。本申请对步骤S31的具体实现方式不做限定。
应该理解的是,音频设备获得多个语音识别引擎各自的第二唤醒词后,也就确定了多个语音识别引擎与多个第二唤醒词之间的对应关系,因此,音频设备存储多个第二唤醒词时,可以同时存储这多个第二唤醒词与多个语音识别引擎之间的对应关系,具体存储方式不做限定。
步骤S32,响应配置指令,从多个语音识别引擎中,确定与音频设备的第一唤醒词关联的第一语音识别引擎;
结合上述相应部分的描述,对于音频设备的第一唤醒词与第一语音识别引擎的关联关系,可以由用户手动配置,也可以由电子设备控制配置等,本申请对该关联关系的配置方式不做限定。所以说,步骤S32的具体实现方式可以包括但并不局限于以下列举的至少一种:
方式一:解析配置指令,得到与音频设备的第一唤醒词关联的第一语音识别引擎。
对于该方式一描述的实现方式,可以是用户先根据使用习惯或当前需求等因素,确定当前需要使用电子设备的哪一个语音识别引擎,即确定第一语音识别引擎后,再通过语音输入、文本输入或借助其他电子设备输入等输入方式,向音频设备输入包含第一语音识别引擎的标识信息的配置指令,从而使得音频设备解析该配置指令,确定出当前与音频设备的第一唤醒词关联的第一语音识别引擎。
其中,上述标识信息可以用来区分多个语音识别引擎,本实施例可以用来识别哪个语音识别引擎是第一语音识别引擎,可见,该标识信息可以具有唯一性特点,其具体可以是该第一语音识别引擎的名称、唯一标识符、版本号等,本申请对各语音识别引擎的标识信息的内容不做限定。
方式二:响应配置指令,从多个语音识别引擎中,选择与第一唤醒词关联的唤醒频次最高的语音识别引擎为第一语音识别引擎。
在实际应用中,唤醒频次越高的语音识别引擎,通常是用户习惯或需要经常使用的语音识别引擎,本实施例可以将其作为能够通过音频设备快速唤醒的第一语音识别引擎,而对于不同语音识别引擎的唤醒频次的统计过程,可以由电子设备或其他计算机设备统计得到,本申请对不同语音识别引擎的唤醒频次的统计方式及统计主体不做限定。
在一种可能的实现方式中,由于电子设备的历史唤醒数据体现的是使用该电子设备的用户对各语音识别引擎的喜好或需求,本申请可以对电子设备的历史唤醒数据进行统计分析,得到不同语音识别引擎的唤醒频次,具体统计过程不做详述。且该统计过程可以由该电子设备完成并发送至音频设备,若历史唤醒数据被上传至服务器,该统计过程也可以由服务器完成,再发送至音频设备。
其中,为了提高音频设备的使用安全性,本申请可以禁止音频设备直接连接网络设备,只能使用音频设备的本地语音唤醒功能,关于音频设备如何禁止连接网络设备的实现方式不做限定。
基于上述分析,对于不同电子设备来说,确定的与音频设备的第一唤醒词关联的第一语音识别引擎可能不同,这种情况下,若音频设备存储有多个电子设备各自配置的语音识别引擎的唤醒频次,唤醒音频设备后,可以确定与音频设备通信连接的电子设备的设备标识,再据此确定与该设备标识对应的各语音识别引擎对应的唤醒频次,进而确定该电子设备的第一语音识别引擎。
基于上述分析,音频设备响应配置指令,可以自动选择唤醒频次最高的语音识别引擎作为第一语音识别引擎,并建立其与音频设备的第一唤醒词的关联关系,以使音频设备在实际应用中被唤醒后,可以依据第一唤醒词,准确得到第一语音识别引擎。
方式三:如果语音输入信号包含第一唤醒词和控制指令,响应配置指令,从多个语音识别引擎中,选择与控制指令匹配的第一应用对应的语音识别引擎为第一语音识别引擎。
结合上述对语音识别引擎的描述,由于不同语音识别引擎所适用或擅长控制的应用领域不同,如有在物联网(Internet of Things,IoT)控制方面做的非常完善的语音识别引擎,有在Windows操作方面比较完善的语音识别引擎,本申请可以根据实际应用需求,合理选择第一语音识别引擎。
通常情况下,对于不同应用领域的应用往往不同,本实施例可以依据用户当前需要使用的电子设备的应用类型,来确定第一语音识别引擎,对此,为了提高第一语音识别引擎的确定效率,可以预先确定各语音识别引擎所对应的至少一个应用,这样,音频设备获得的语音输入信号包含的控制指令后,可以先确定该控制指令是针对哪个应用(记为第一应用)的,再选择该应用对应的语音识别引擎为第一语音识别引擎。
举例说明,若用户输入的语音输入信息为“你好A,今天天气怎么样”,按照上述方式确定的第一应用可以是电子设备中的天气查询应用,可以确定该天气查询应用对应的语音识别应用1为第一语音识别引擎。
需要说明,对于上述步骤S32的具体实现方式,并不局限于上文列举的三种实现方式,可以根据实际情况完成对音频设备的配置,本申请不再一一详述。
步骤S33,建立第一唤醒词与第一语音识别引擎的第二唤醒词之间的匹配关系。
结合上述对不同语音识别引擎的唤醒规则的描述,对于某些语音识别引擎,仍需要依据自身配置的第二唤醒词才能够唤醒,所以,在第一语音识别引擎是这类语音识别引擎的情况下,为了使得音频设备获得第一语音识别引擎的第二唤醒词,可以预先建立其与音频设备的第一唤醒词之间的匹配关系,关于该匹配关系的具体构成方式及存储方式本申请不做限定。
基于此,本申请按照上述方式确定与第一唤醒词相匹配的第一语音识别引擎后,可以按照预先建立的上述对应关系或匹配关系,得到与第一唤醒词相匹配的第一语音识别引擎对应的第二唤醒词。
步骤S24,利用第二唤醒词,更新语音输入信号包含的第一唤醒词,得到目标信息;
由于本申请需要利用第二唤醒词,来唤醒电子设备中对应的第一语音识别引擎,所以,该目标信息需要包含该第二唤醒词。基于此,对于语音输入信号的更新方式可以至少包括以下方式:
如果音频设备获得的语音输入语音输入信号包含第一唤醒词和控制指令(如“你好A,今天天气怎么样;你好A,对xx年xx月xx日拍摄的小狗图像进行预处理”等等),由第二唤醒词替换语音输入信号包含的第一唤醒词,得到目标信息。可见,这种方式得到的目标信息不再包含第一唤醒词,而是包含第二唤醒词和上述控制指令。
以“你好A,今天天气怎么样”这一语音输入信号为例,对目标输入信号的更新过程进行说明,参照图7所示,第一行附图示出了该语音输入信号的音频,识别出其包含的第一唤醒词“你好A”,并获得第一语音识别引擎对应的第二唤醒词后,可以由该第二唤醒词直接替换语音识别引擎中的第一唤醒词,得到如图7中第二行附图所示的音频,此时得到的目标信号包含第二唤醒词(其内容及音频可以依据第一语音识别引擎的类型确定)以及控制指令(即“今天天气怎么样”);当然,为了提高后续语音识别效率,音频设备也可以直接剔除无效音频信号,按照上述替换更新方式,得到如图7第三行所示的目标信息,具体处理过程不做详述。
如果音频设备获得的语音输入信号包含第一唤醒词,但并未包含控制指令,如“你好A”,可以直接将第二唤醒词确定为目标信息。
步骤S25,将目标信息发送至电子设备,以唤醒电子设备中的第一语音识别引擎。
综上所述,本实施例中,音频设备响应语音输入信号包含的第一唤醒词被唤醒后,可以确定与该第一唤醒词相匹配的电子设备配置的第一语音识别引擎,获得该第一语音识别引擎对应的第二唤醒词,之后,由该第二唤醒词,更新语音输入信息包含的第一唤醒词,得到包含第二唤醒词的目标信息发送至电子设备,这样,电子设备就可以直接响应该目标信息包含的第二唤醒词,唤醒第一语音识别引擎,不需要电子设备的音频采集器始终工作,降低了隐私信息被窃听的风险;且不需要用户记忆所有语音识别引擎的第二唤醒词,减少了用户记忆工作量,提高了电子设备语音控制的便利性及可靠性。
在一些实施例中,由于有些语音识别引擎的应用程序接口(ApplicationProgramming Interface,API)是对外开发的,对于这类语音识别引擎,电子设备可以直接调用该API,快速唤醒该语音识别引擎。可见,这种语音识别引擎唤醒方式,相对于上述实施例描述的唤醒方式更加高效,电子设备的功耗更低,所以,本申请可以优先选择这种调用API唤醒语音识别引擎的方式。
具体的,本申请按照上述方式确定与第一唤醒词相匹配的第一语音识别引擎之后,可以检测该第一语音识别引擎是否属于特定语音识别引擎(即上述对外公开API的语音识别引擎);如果否,可以按照上述唤醒方式唤醒第一语音识别引擎,具体过程不再赘述;如果是,可以生成与第一唤醒词对应的唤醒指令,将该唤醒指令发送至电子设备,以使电子设备调用第一语音识别引擎的应用程序接口API,将唤醒指令发送至第一语音识别引擎,唤醒所述第一语音识别引擎。
由此可见,对于公开应用程序接口API的第一语音识别引擎,音频设备可以直接向电子设备发送唤醒指令,由电子设备调用该API,利用该唤醒指令,快速唤醒第一语音识别引擎,相对于从语音信号中识别出唤醒词,再依据唤醒词唤醒第一语音识别引擎的方式,进一步提高了语音识别引擎唤醒效率。
上述方法实施例主要是从音频设备的角度来描述信号处理方法的实现过程,下面将从与音频设备通信连接的,配置有语音识别引擎的电子设备角度,来描述信号处理方法的实现过程,但并不局限于下文实施例描述的几种实现方式。
参照图8,示出了本申请提出的信号处理方法的又一可选示例的流程示意图,该方法适用于如上述电子设备200,本申请对该电子设备200的产品类型不做限定,如图8所述,本实施例提出的信号处理方法可以包括:
步骤S41,接收音频设备发送的目标信息;
结合上述从该音频设备角度描述的信号处理方法可知,该目标信息可以是音频设备按照第一语音识别引擎的唤醒规则,利用语音输入信息包含的第一唤醒词生成的,具体生成过程可以参照上述方法实施例相应部分的描述,本实施例不再赘述。应该理解,该第一语音识别引擎可以是指电子设备配置的任意一个语音识别引擎。
步骤S42,基于该目标信息,唤醒第一语音识别引擎。
结合上述对第一语音识别引擎的唤醒规则的描述可知,对于不同内容的目标信息,唤醒第一语音识别引擎的方式不同,本申请对步骤S42的具体实现方法不做限定。
在一些实施例中,参照图9a所示的信号处理方法的又一细化实现方式的流程示意图,以及图9b所示的该细化实现方式的一可选场景示意图,本实施例主要对如何基于不同内容的目标信息,唤醒电子设备的第一语音识别引擎的实现过程进行描述,对于该目标信息的获取过程,可以参照上述方法实施例相应部分的描述,本实施例不作赘述。如图9a所示,该方法可以包括:
步骤S51,接收音频设备发送的目标信息;
步骤S52,如果该目标信息为唤醒指令,调用第一语音识别引擎的应用程序接口,将唤醒指令发送至第一语音识别引擎,唤醒第一语音识别引擎;
应该理解,该应用程序接口API可以是第一语音识别引擎的唤醒接口。关于电子设备如何调用API唤醒其对应的第一语音识别引擎的具体实现过程不做详述。
在一些实施例中,电子设备的驱动接收到音频设备发送的目标信息,确定该目标信息是唤醒指令,也就是说,当前需要唤醒的第一语音识别引擎是具有开放的应用程序接口API的语音识别引擎,即电子设备的驱动具有调用该第一语音识别引擎的权限,本申请为了提高唤醒效率,降低功耗,可以选择直接调用该第一语音识别引擎的API的方式,达到唤醒语音识别引擎的目的,即电子设备的驱动直接调用第一语音识别引擎的API,将唤醒指令发送至第一语音识别引擎,唤醒该第一语音识别引擎。
步骤S53,如果目标信息为目标语音信号,将目标语音信号发送至电子设备的音频采集器;
步骤S54,对音频采集器转发的目标音频信号进行识别,得到第二唤醒词;
步骤S55,响应第二唤醒词,唤醒第一语音识别引擎。
其中,目标语音信号可以是按照上述从音频设备角度描述的,由音频设备利用第一语音识别引擎对应的第二唤醒词,更新语音输入信号包含的第一唤醒词得到的,可见,该目标语音信号至少包含该第一语音识别引擎对应的第二唤醒词,在某些实施例中,该目标语音信号还可以包括控制指令,如“你好A,今天天气怎么样”。关于该目标语音信号的具体获取过程,可以参照上述方法实施例相应部分的描述,本实施例不再赘述。
仍以图9b所示的场景示意图为例进行说明,电子设备的驱动确定目标信息为目标语音信号,可以将其发送至如麦克风等音频采集器,这样可以将该目标语音信号看作为该音频采集器采集到的语音信号,之后,可以按照语音识别引擎常规的唤醒流程,来唤醒第一语音识别引擎,具体实现过程不做详述。
需要说明,若上述目标语音信号仅包含第二唤醒词,未包含控制指令,据此唤醒第一语音识别引擎后,需要用户再输入语音信号,以使该第一语音识别引擎响应该语音信号对应的控制指令,控制电子设备的相应应用运行或执行预设操作,也就是说,电子设备的第一语音识别引擎唤醒后,用户输出的语音信号可以不同音频设备转达,而由电子设备自身的音频采集器采集,并由第一语音识别引擎执行相应的控制,满足用户对电子设备的语音控制需求。
综上,本实施例响应第一唤醒词唤醒音频设备后,由音频设备利用第一唤醒词生成针对第一语音识别引擎的目标信息发送至电子设备,电子设备不需要时刻开启语音采集器,采集用户输入的语音输入信号,进而分析其是否包含第一语音识别引擎对应的第二唤醒词,可以直接基于音频设备发送的目标信息,唤醒第一语音识别音箱,降低了电子设备中隐私信息被窃取的风险,且提高了电子设备安装的语音识别引擎的唤醒准确性及可靠性,不需要用户记忆电子设备安装的多个语音识别引擎各自的第二唤醒词,提高了唤醒语音识别引擎的便利性。
在一些实施例中,对于如何利用语音输入信息包含的第一唤醒词,得到目标信息的处理过程,也可以由电子设备实现,具体参照图10,示出了本申请提出的信号处理方法一可选示例的信令流程图,该方法可以包括:
步骤S61,音频设备获得语音输入信号;
步骤S62,音频设备确定该语音输入信号包含第一唤醒词,响应该第一唤醒词唤醒音频设备,并确定与第一唤醒词对应的第一语音识别引擎;
关于步骤S61和步骤S62的具体实现可以参照上述实施例相应部分的描述。
步骤S63,音频设备确定具有该第一语音识别引擎的电子设备,并建立与电子设备的通信连接,将语音输入信号发送至电子设备;
本申请对音频设备与电子设备的通信方式不做限定,可以包括但并不局限于上述实施例列举的通信方式。
步骤S64,电子设备检测是否具有第一语音识别引擎的应用程序接口的调用权限;
参照图9b所示的场景示意图,电子设备可以检测第一语音识别引擎是否对驱动开放了应用程序接口,可以通过检测第一语音识别引擎的配置信息实现,但并不局限于这种实现方式。应该理解,对于第一语音识别引擎的应用程序接口的调用权限,可以依据电子设备对第一语音识别引擎的控制主体实现,并不局限于图9b所示的驱动。
步骤S65,电子设备确定具有调用权限,生成与语音输入信号对应的唤醒指令;
步骤S66,电子设备调用第一语音识别引擎的应用程序接口,将唤醒指令发送至第一语音识别引擎,唤醒该第一语音识别引擎;
步骤S67,电子设备确定不具有该调用权限,利用第一语音识别引擎对应的第二唤醒词,更新语音输入信号包含的第一唤醒词,得到目标语音信号;
步骤S68,电子设备将目标语音信号通过音频采集器发送至第一语音识别引擎,响应该目标语音信号包含的第二唤醒词,唤醒第一语音识别引擎。
对于步骤S65和步骤S67分别描述的唤醒指令、目标语音信号的生成过程,可以参照上述从音频设备角度描述的相应目标信息的生成过程,本实施例不再赘述。同理,对于步骤S66和步骤S68分别描述的唤醒第一语音识别引擎的实现过程,可以参照上述从电子设备角度描述的方法实施例相应部分的描述。
综上,本实施例中,用户只需要记忆音频设备的第一唤醒词,通过输出包含该第一唤醒词的语音输入信号,以使音频设备响应该第一唤醒词而被唤醒,系统进入工作状态,确定与该第一唤醒词对应的第一语音识别引擎,进而建立与具有该第一语音识别引擎的电子设备的通信连接,将语音输入信号发送至电子设备,不需要电子设备的音频采集器始终处于工作状态,实时采集用户输出的语音输入信号,降低了隐私信息被窃取的风险。
且,电子设备接收到语音输入信号后,为了提高唤醒效率,优先采用调用应用程序接口的方式,唤醒对应的第一语音识别引擎;若电子设备不具有该第一语音识别引擎的应用程序接口的调用权限,可以将利用第一语音识别引擎的第二唤醒词,更新语音输入信号中的第一唤醒词后,再将得到的目标语音输入信号发送至音频采集器,相当于是该音频采集器直接采集到包含第一语音识别引擎的第二唤醒词的目标语音信号,通过响应该目标语音信号包含的第二唤醒词,唤醒第一语音识别引擎,满足用户对第一语音识别引擎的使用需求,不需要记忆多个语音识别引擎各自的第二唤醒词,提高了对电子设备语音控制的便利性及准确性。
结合上述对本申请提出的信号处理方法的各实施例的描述,下面将对实现相应信号处理方法的信号处理装置进行描述,关于该信号处理装置的组成结构包括但并不局限于下文实施例的描述,可以根据实际需求,按照本申请上述提出的发明构思进行调整,本申请不做一一详述。
参照图11,示出了本申请提出的信号处理装置的一可选示例的结构示意图,该装置可以适用于音频设备,如图11所示,该装置可以包括:
语音输入信号获得模块21,用于获得语音输入信号;
第一唤醒词获取模块22,用于获取所述语音输入信号包含的第一唤醒词;
第一唤醒控制模块23,用于响应所述第一唤醒词,唤醒所述音频设备,并确定与所述第一唤醒词相匹配的第一语音识别引擎;
目标信息生成模块24,用于按照所述第一语音识别引擎的唤醒规则,基于所述第一唤醒词生成针对所述第一语音识别引擎的目标信息;
其中,第一语音识别引擎是指能够与所述音频设备通信连接的电子设备配置的任意一个语音识别引擎。
目标信息发送模块25,用于将所述目标信息发送至所述电子设备,以唤醒所述电子设备中的所述第一语音识别引擎。
在一些实施例中,如图12所示,上述目标信息生成模块24可以包括:
第二唤醒词获得单元241,用于获得所述第一语音识别引擎对应的第二唤醒词;
语音输入信号更新单元242,用于利用所述第二唤醒词,更新所述语音输入信号包含的所述第一唤醒词,得到目标信息。
在一种可能的实现方式中,如图13所示,该目标信息生成模块24还可以包括:
检测单元243,用于检测所述第一语音识别引擎是否属于特定语音识别引擎;如果否,触发第二唤醒词获得单元241获得所述第一语音识别引擎的第二唤醒词;
结合上述方法实施例相应部分的描述,上述语音输入信号更新单元242的目标信息实际上可以是目标语音信号,这种情况下,上述目标信息发送模块25可以包括:
目标语音信号发送单元251,用于将目标语音信号发送至电子设备,以使该电子设备通过音频采集器,将目标语音信号转发至第一语音识别引擎,唤醒该第一语音识别引擎。
唤醒指令生成单元244,用于在检测单元243的检测结果为是的情况下,生成与所述第一唤醒词对应的唤醒指令;
相应地,上述目标信息发送模块25可以包括:
唤醒指令发送单元252,用于将所述唤醒指令发送至所述电子设备,以使所述电子设备调用所述第一语音识别引擎的应用程序接口,将所述唤醒指令发送至所述第一语音识别引擎,唤醒所述第一语音识别引擎。
关于上述描述的音频设获得语音输入信号,得到不同内容的目标信息的实现过程,可以参照上述方法实施例相应部分的描述,本实施例不做详述。
在一些实施例中,如图14所示,本申请提出的信号处理装置还可以包括:
第二唤醒词获取模块26,用于获取所述电子设备配置的多个语音识别引擎各自的第二唤醒词;
第一语音识别引擎确定模块27,用于响应配置指令,从所述多个语音识别引擎中,确定与所述音频设备的第一唤醒词关联的第一语音识别引擎;
本申请实际应用中,关于第一语音识别引擎的确定方式可以包括但并不局限于以下中的至少一种,也就是说,该第一语音识别引擎确定模块27可以包括但并不局限于以下至少一个单元:
解析单元,用于解析配置指令,得到与所述音频设备的第一唤醒词关联的第一语音识别引擎;
第一选择单元,用于响应配置指令,从所述多个语音识别引擎中,选择与第一唤醒词关联的唤醒频次最高的语音识别引擎为第一语音识别引擎;
第二选择单元,用于在语音输入信号包含所述第一唤醒词和控制指令的情况下,响应配置指令,从所述多个语音识别引擎中,选择与所述控制指令匹配的第一应用对应的语音识别引擎为第一语音识别引擎。
匹配关系建立模块28,用于建立所述第一唤醒词与所述第一语音识别引擎的第二唤醒词之间的匹配关系。
需要说明的是,关于上述各装置实施例中的各种模块、单元等,均可以作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块,以实现相应的功能,关于各程序模块及其组合所实现的功能,以及达到的技术效果,可以参照上述从音频设备角度描述的方法实施例相应部分的描述,本实施例不再赘述。
参照图15,示出了本申请提出的信号处理装置的又一可选示例的结构示意图,该装置可以适用于电子设备,如图15所示,该装置可以包括:
目标信息接收模块31,用于接收音频设备发送的目标信息;
其中,上述目标信息可以是所述音频设备按照第一语音识别引擎的唤醒规则,利用语音输入信息包含的第一唤醒词生成的,具体生成过程可以参照上述实施例相应部分的描述,且第一语音识别引擎是指电子设备配置的任意一个语音识别引擎。
唤醒控制模块32,用于基于所述目标信息,唤醒所述第一语音识别引擎。
在一种可能的实现方式中,如图16所示,该唤醒控制模块32可以包括:
应用程序接口调用单元321,用于在目标信息具体为唤醒指令的情况下,调用所述第一语音识别引擎的应用程序接口,将所述唤醒指令发送至所述第一语音识别引擎,唤醒所述第一语音识别引擎。
目标语音信号发送单元322,用于在目标信息为目标语音信号的情况下,将目标语音信号发送至所述电子设备的音频采集器;
需要说明的是,该目标语音信号可以是确定第一语音识别引擎为任一语音识别引擎的情况下生成的。而上述唤醒指令则是在确定第一语音识别引擎为特定语音识别引擎的情况下生成的,具体实现过程可以参照上述方法实施例相应部分的描述。
第二唤醒词识别单元323,用于对所述音频采集器转发的所述目标音频信号进行识别,得到所述第二唤醒词;
唤醒单元324,用于响应所述第二唤醒词,唤醒所述第一语音识别引擎。
关于上述从电子设备角度描述的各装置实施例中的各种模块、单元等,均可以作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块,以实现相应的功能,关于各程序模块及其组合所实现的功能,以及达到的技术效果,可以参照上述从电子设备角度描述的方法实施例相应部分的描述,本实施例不再赘述。
本申请还提供了一种存储介质,其上可以存储计算机程序,该计算机程序可以被处理器调用并加载,以实现上述实施例描述的信号处理方法的各个步骤,具体实现过程可以参照上述相应方法实施例的描述。
最后,需要说明,本说明书中各个实施例采用递进或并列的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备而言,由于其与实施例公开的方法对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种信号处理方法,所述方法包括:
音频设备获得语音输入信号;
获取所述语音输入信号包含的第一唤醒词,响应所述第一唤醒词,唤醒所述音频设备,并确定与所述第一唤醒词相匹配的第一语音识别引擎;
按照所述第一语音识别引擎的唤醒规则,基于所述第一唤醒词生成针对所述第一语音识别引擎的目标信息,所述第一语音识别引擎是指能够与所述音频设备通信连接的电子设备配置的多个语音识别引擎中的任意一个语音识别引擎;
将所述目标信息发送至所述电子设备,以唤醒所述电子设备中的所述第一语音识别引擎。
2.根据权利要求1所述的方法,所述按照所述第一语音识别引擎的唤醒规则,基于所述第一唤醒词生成针对所述第一语音识别引擎的目标信息,包括:
获得所述第一语音识别引擎对应的第二唤醒词;
利用所述第二唤醒词,更新所述语音输入信号包含的所述第一唤醒词,得到目标信息。
3.根据权利要求2所述的方法,所述按照所述第一语音识别引擎的唤醒规则,基于所述第一唤醒词生成针对所述第一语音识别引擎的目标信息,还包括:
检测所述第一语音识别引擎是否属于特定语音识别引擎;如果否,执行步骤所述获得所述第一语音识别引擎的第二唤醒词;
如果是,生成与所述第一唤醒词对应的唤醒指令;
所述将所述目标信息发送至所述电子设备,以唤醒所述电子设备中的所述第一语音识别引擎,包括:
将所述唤醒指令发送至所述电子设备,以使所述电子设备调用所述第一语音识别引擎的应用程序接口,将所述唤醒指令发送至所述第一语音识别引擎,唤醒所述第一语音识别引擎。
4.根据权利要求2所述的方法,所述方法还包括:
获取所述电子设备配置的多个语音识别引擎各自的第二唤醒词;
响应配置指令,从所述多个语音识别引擎中,确定与所述音频设备的第一唤醒词关联的第一语音识别引擎;
建立所述第一唤醒词与所述第一语音识别引擎的第二唤醒词之间的匹配关系。
5.根据权利要求4所述的方法,所述响应配置指令,从所述多个语音识别引擎中,确定与所述音频设备的第一唤醒词关联的第一语音识别引擎,包括以下中的至少一种:
解析配置指令,得到与所述音频设备的第一唤醒词关联的第一语音识别引擎;
响应配置指令,从所述多个语音识别引擎中,选择与第一唤醒词关联的唤醒频次最高的语音识别引擎为第一语音识别引擎;
如果所述语音输入信号包含所述第一唤醒词和控制指令,响应配置指令,从所述多个语音识别引擎中,选择与所述控制指令匹配的第一应用对应的语音识别引擎为第一语音识别引擎。
6.一种信号处理方法,所述方法包括:
接收音频设备发送的目标信息,所述目标信息是所述音频设备按照第一语音识别引擎的唤醒规则,利用语音输入信息包含的能够唤醒所述音频设备的第一唤醒词生成的,所述第一语音识别引擎是指电子设备配置的多个语音识别引擎中的任意一个语音识别引擎;
基于所述目标信息,唤醒所述第一语音识别引擎。
7.根据权利要求6所述的方法,所述目标信息具体为唤醒指令,所述基于所述目标信息,唤醒所述第一语音识别引擎,包括:
调用所述第一语音识别引擎的应用程序接口,将所述唤醒指令发送至所述第一语音识别引擎,唤醒所述第一语音识别引擎。
8.根据权利要求6所述的方法,所述目标信息具体为目标语音信号,所述基于所述目标信息,唤醒所述第一语音识别引擎,包括:
将所述目标语音信号发送至所述电子设备的音频采集器;
对所述音频采集器转发的所述目标语音信号进行识别,得到第二唤醒词;
响应所述第二唤醒词,唤醒所述第一语音识别引擎。
9.一种信号处理装置,所述装置包括:
语音输入信号获得模块,用于获得语音输入信号;
第一唤醒词获取模块,用于获取所述语音输入信号包含的第一唤醒词;
第一唤醒控制模块,用于响应所述第一唤醒词,唤醒音频设备,并确定与所述第一唤醒词相匹配的第一语音识别引擎;
目标信息生成模块,用于按照所述第一语音识别引擎的唤醒规则,基于所述第一唤醒词生成针对所述第一语音识别引擎的目标信息,所述第一语音识别引擎是指能够与所述音频设备通信连接的电子设备配置的多个语音识别引擎中的任意一个语音识别引擎;
目标信息发送模块,用于将所述目标信息发送至所述电子设备,以唤醒所述电子设备中的所述第一语音识别引擎。
10.一种信号处理装置,所述装置包括:
目标信息接收模块,用于接收音频设备发送的目标信息,所述目标信息是所述音频设备按照第一语音识别引擎的唤醒规则,利用语音输入信息包含的能够唤醒所述音频设备的第一唤醒词生成的,所述第一语音识别引擎是指电子设备配置的多个语音识别引擎中的任意一个语音识别引擎;
唤醒控制模块,用于基于所述目标信息,唤醒所述第一语音识别引擎。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010064139.8A CN111261160B (zh) | 2020-01-20 | 2020-01-20 | 一种信号处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010064139.8A CN111261160B (zh) | 2020-01-20 | 2020-01-20 | 一种信号处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111261160A CN111261160A (zh) | 2020-06-09 |
CN111261160B true CN111261160B (zh) | 2023-09-19 |
Family
ID=70954303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010064139.8A Active CN111261160B (zh) | 2020-01-20 | 2020-01-20 | 一种信号处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111261160B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037786B (zh) * | 2020-08-31 | 2024-09-24 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备以及存储介质 |
CN112929724B (zh) * | 2020-12-31 | 2022-09-30 | 海信视像科技股份有限公司 | 显示设备、机顶盒及远场拾音唤醒控制方法 |
CN115242571A (zh) * | 2021-04-25 | 2022-10-25 | 佛山市顺德区美的电热电器制造有限公司 | 分布式语音交互方法与装置、可读存储介质、家电设备 |
CN114999481A (zh) * | 2022-05-30 | 2022-09-02 | 北斗星通智联科技有限责任公司 | 适配多种语音识别引擎的适配器系统和适配方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107919123A (zh) * | 2017-12-07 | 2018-04-17 | 北京小米移动软件有限公司 | 多语音助手控制方法、装置及计算机可读存储介质 |
WO2019007245A1 (zh) * | 2017-07-04 | 2019-01-10 | 阿里巴巴集团控股有限公司 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
CN109493849A (zh) * | 2018-12-29 | 2019-03-19 | 联想(北京)有限公司 | 语音唤醒方法、装置及电子设备 |
CN109712624A (zh) * | 2019-01-12 | 2019-05-03 | 北京设集约科技有限公司 | 一种多语音助手协调方法、装置和系统 |
CN109725798A (zh) * | 2017-10-25 | 2019-05-07 | 腾讯科技(北京)有限公司 | 智能角色的切换方法及相关装置 |
CN110111767A (zh) * | 2018-01-31 | 2019-08-09 | 通用汽车环球科技运作有限责任公司 | 多语言语音辅助支持 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871408B (zh) * | 2012-12-14 | 2017-05-24 | 联想(北京)有限公司 | 一种语音识别方法及装置、电子设备 |
WO2017138934A1 (en) * | 2016-02-10 | 2017-08-17 | Nuance Communications, Inc. | Techniques for spatially selective wake-up word recognition and related systems and methods |
WO2017197010A1 (en) * | 2016-05-10 | 2017-11-16 | Google Llc | Implementations for voice assistant on devices |
CN109391528A (zh) * | 2018-08-31 | 2019-02-26 | 百度在线网络技术(北京)有限公司 | 语音智能设备的唤醒方法、装置、设备及存储介质 |
-
2020
- 2020-01-20 CN CN202010064139.8A patent/CN111261160B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019007245A1 (zh) * | 2017-07-04 | 2019-01-10 | 阿里巴巴集团控股有限公司 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
CN109725798A (zh) * | 2017-10-25 | 2019-05-07 | 腾讯科技(北京)有限公司 | 智能角色的切换方法及相关装置 |
CN107919123A (zh) * | 2017-12-07 | 2018-04-17 | 北京小米移动软件有限公司 | 多语音助手控制方法、装置及计算机可读存储介质 |
CN110111767A (zh) * | 2018-01-31 | 2019-08-09 | 通用汽车环球科技运作有限责任公司 | 多语言语音辅助支持 |
CN109493849A (zh) * | 2018-12-29 | 2019-03-19 | 联想(北京)有限公司 | 语音唤醒方法、装置及电子设备 |
CN109712624A (zh) * | 2019-01-12 | 2019-05-03 | 北京设集约科技有限公司 | 一种多语音助手协调方法、装置和系统 |
Non-Patent Citations (2)
Title |
---|
Veton Këpuska 等.Next-generation of virtual personal assistants (Microsoft Cortana, Apple Siri, Amazon Alexa and Google Home).《2018 IEEE 8th Annual Computing and Communication Workshop and Conference》.2018,第99-102页. * |
声音作为下一个平台:智能语音新闻报道的创新与实践;张建中;《现代传播(中国传媒大学学报)》;20180115(第01期);第148-153页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111261160A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111261160B (zh) | 一种信号处理方法及装置 | |
US20220223150A1 (en) | Voice wakeup method and device | |
EP3382530B1 (en) | Operating method of electronic device for function execution based on voice command in locked state and electronic device supporting the same | |
CN109378000B (zh) | 语音唤醒方法、装置、系统、设备、服务器及存储介质 | |
CN107360327B (zh) | 语音识别方法、装置和存储介质 | |
RU2615320C2 (ru) | Способ, аппаратура и устройство терминала для обработки изображения | |
CN106782554B (zh) | 基于人工智能的语音唤醒方法和装置 | |
US11874904B2 (en) | Electronic device including mode for using an artificial intelligence assistant function of another electronic device | |
US11031011B2 (en) | Electronic device and method for determining electronic device to perform speech recognition | |
US11223497B2 (en) | Method and apparatus for providing notification by interworking plurality of electronic devices | |
US11538328B2 (en) | Mobile device self-identification system | |
KR20180083587A (ko) | 전자 장치 및 그의 동작 방법 | |
WO2015197008A1 (zh) | 一种生物认证方法及终端 | |
WO2020258838A1 (zh) | Ble通信方法、装置、设备及存储介质 | |
CN108600559B (zh) | 静音模式的控制方法、装置、存储介质及电子设备 | |
CN112133302B (zh) | 预唤醒终端的方法、装置及存储介质 | |
WO2019227370A1 (zh) | 一种多语音助手控制方法、装置、系统及计算机可读存储介质 | |
CN107257408B (zh) | 主屏页面显示方法、终端及计算机可读存储介质 | |
CN113282850B (zh) | 资源标签管理方法、装置、电子设备、系统及存储介质 | |
KR20180099423A (ko) | 잠금 상태에서의 음성 명령을 기반으로 하는 기능 실행 운용 방법 및 이를 지원하는 전자 장치 | |
US8934880B2 (en) | Movement detection system for a portable device such as a portable phone | |
CN112634922A (zh) | 语音信号处理方法、设备及计算机可读存储介质 | |
CN108417218B (zh) | 一种基于声纹的备忘提醒方法及终端 | |
CN113200020B (zh) | 一种开启车辆门锁的方法、车辆、车辆控制云平台及系统 | |
CN117170857A (zh) | 一种资源管控方法、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |