CN113889116A - 语音信息的处理方法和装置、存储介质及电子装置 - Google Patents
语音信息的处理方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN113889116A CN113889116A CN202111081668.XA CN202111081668A CN113889116A CN 113889116 A CN113889116 A CN 113889116A CN 202111081668 A CN202111081668 A CN 202111081668A CN 113889116 A CN113889116 A CN 113889116A
- Authority
- CN
- China
- Prior art keywords
- voice
- processed
- instruction
- information
- voice information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 5
- 230000010365 information processing Effects 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音信息的处理方法和装置、存储介质及电子装置,其中,上述方法包括:将接收到的第一语音信息输入语音设备中配置的第一语音模型,得到语音唤醒结果;在语音唤醒结果表征第一语音信息中存在唤醒指令的情况下,从第一语音信息中获取在唤醒指令之前的待处理语音,检测待处理语音中是否存在第一语音指令;在检测到待处理语音中存在第一语音指令的情况下,将待处理语音和/或第一语音信息发送至云端服务器,以使云端服务器中配置的第二语音模型对待处理语音和/或第一语音信息进行处理,采用上述技术方案,解决了语音设备需要提升硬件性能或实时将语音上传到云端才能准确地识别用户语音中语音指令等问题。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种语音信息的处理方法和装置、存储介质及电子装置。
背景技术
随着科学技术的进步和人工智能的发展,智能算法也越来越多的应用到日常生活中,特别是对于语音设备而言,随着智能语音应用技术的不断成熟,越来越多的语音设备应用了智能语音技术,想要听歌、查天气、控制语音设备等,只需要对语音设备说出指令即可,不再需要去接触语音设备或者掏出手机来控制,一句话能搞定的事何必那么繁琐。
目前语音设备的交互模式一般采用先唤醒,再发话的方式。例如:使用者说“小X小X”,语音设备经过声音模型匹配确定了唤醒词,再通过语音或灯光告诉使用者已进入唤醒模式,使用者再说“今天天气如何?”,语音设备经过查询播报“北京今天天气晴……”但是,生活中经常会有人有这种说话习惯:“你吃饭了吗?小王”,将说话的对象放在了语音的后面,但是此时语音设备识别不到用户语音中的语音指令。
目前的解决方案通常有两种:方案一,持续录音,并将录音全部送到云端进行识别。这种方案通常应用在商场等公共场所,并需要伴有类似“您已进入录音区”的醒目提示,以便不侵犯客户隐私;方案二,全部采用本地识别算法,但是本地需要存储一个足够大的声学模型。
针对相关技术中,语音设备需要提升硬件性能或实时将语音上传到云端才能准确地识别用户语音中语音指令等问题,尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音信息的处理方法和装置、存储介质及电子装置,以至少解决相关技术中,语音设备需要提升硬件性能或实时将语音上传到云端才能准确地识别用户语音中语音指令等问题。
根据本发明实施例的一个实施例,提供了一种语音信息的处理方法,包括:将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理。
在一个示例性实施例中,检测所述待处理语音中是否存在第一语音指令之后,所述方法还包括:在确定所述待处理语音中不存在所述第一语音指令的情况下,获取所述目标对象发出的第二语音信息,其中,所述第二语音信息为所述第一语音信息之后检测到的语音信息;将所述第二语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述第二语音信息进行处理。
在一个示例性实施例中,对所述第一语音信息进行预处理,得到预处理后的第一语音信息;利用所述语音设备中配置的语音端点监测模块对所述预处理后的第一语音信息进行检测,根据检测结果从所述第一语音信息获取所述待处理语音;将所述待处理语音和/或所述第一语音信息存储至所述语音设备的录音缓存模块。
在一个示例性实施例中,所述对所述第一语音信息进行预处理,得到预处理后的第一语音信息,包括:利用语音设备中配置的声学回声消除模块对所述第一语音信息进行降噪,得到降噪后的第一语音信息;利用所述语音设备中的自动增益控制模块对所述降噪后的第一语音信息进行增益控制,得到预处理后的第一语音信息。
在一个示例性实施例中,检测所述待处理语音中是否存在第一语音指令,包括:将所述待处理语音输入到所述语音设备的本地识别模块,以使所述本地识别模块检测所述待处理语音中是否存在所述第一语音指令,所述第一语音指令包括对所述语音设备进行控制的交互指令。
在一个示例性实施例中,将所述待处理语音,和/或,所述第一语音信息发送至云端服务器之后,所述方法还包括:在所述云端服务器中配置的第二语音模型识别到所述待处理语音和/或所述第一语音信息中存在第二语音指令的情况下,接收所述云端服务器发送的操作控制指令,所述操作控制指令根据所述第二语音指令生成;根据所述操作控制指令控制目标设备执行所述第二语音指令表征的待执行操作。
在一个示例性实施例中,将所述待处理语音和/或所述第一语音信息发送至云端服务器之后,所述方法还包括:在所述云端服务器中配置的第二语音模型未识别到所述待处理语音和/或所述第一语音信息中存在有效指令的情况下,接收所述云端服务器发送的识别结果,所述有效指令包括唤醒指令、语音指令中的至少一个;根据所述识别结果,不执行唤醒操作和/或不执行所述第一语音指令对应的操作。
根据本发明实施例的另一个实施例,还提供了一种语音信息的识别装置,包括:获取模块,用于将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;检测模块,用于在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;发送模块,用于在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语音信息的处理方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的语音信息的处理方法。
在本发明实施例中,将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理;采用上述技术方案,解决了语音设备需要提升硬件性能或实时将语音上传到云端才能准确地识别用户语音中语音指令等问题,进而语音设备无需提升硬件性能,也无需优化唤醒算法,所以具有成本低、实现快速的特点。由于并没有持续将录音上传至云端,所以很好的保护了用户隐私。由于唤醒指令的最终确认在云端,所以可以使用实时更新的大唤醒模型,很好的保证了语音识别的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种语音信息的处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的语音信息的处理方法的流程图;
图3是根据本发明实施例的语音信息的处理方法的示意图;
图4是根据本发明实施例的一种语音信息的识别装置的结构框图(一);
图5是根据本发明实施例的一种语音信息的识别装置的结构框图(二)。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例所提供的方法实施例可以在计算机终端、移动终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音信息的处理方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音信息的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种语音信息的处理方法,应用于上述移动终端,具体为语音设备,图2是根据本发明实施例的语音信息的处理方法的流程图,该流程包括如下步骤:
步骤S202,将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;
步骤S204,在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;
步骤S206,在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理。
通过上述步骤,将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理;采用上述技术方案,解决了语音设备需要提升硬件性能或实时将语音上传到云端才能准确地识别用户语音中语音指令等问题,进而语音设备无需提升硬件性能,也无需优化唤醒算法,所以具有成本低、实现快速的特点。由于并没有持续将录音上传至云端,所以很好的保护了用户隐私。由于唤醒指令的最终确认在云端,所以可以使用实时更新的大唤醒模型,很好的保证了语音识别的准确性。
具体的,所述语音设备可以理解为可以接收到语音信息的设备,例如,平板、音响等设备,在所述语音设备为音响的情况下,音响设备接收到“打开音乐,小X小X”的语音信息的情况下,将接收到的“打开音乐,小X小X”输入第一语音模型,以唤醒音响,从“打开音乐,小X小X”中获取在“小X小X”之前的“打开音乐”的待处理语音,检测“打开音乐”中是否存在语音指令;在检测到“打开音乐”中存在所述语音指令的情况下,将“打开音乐”和/或“打开音乐,小X小X”发送至云端服务器,以使所述云端服务器中配置的第二语音模型对“打开音乐”和/或“打开音乐,小X小X”进行处理,需要说明的是,上述举例仅是为了更好的理解本发明实施例,本发明实施例对语音设备、语音信息等信息不做限定。
在一个示例性实施例中,检测所述待处理语音中是否存在第一语音指令之后,在确定所述待处理语音中不存在所述第一语音指令的情况下,获取所述目标对象发出的第二语音信息,其中,所述第二语音信息为所述第一语音信息之后检测到的语音信息;将所述第二语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述第二语音信息进行处理。
具体地,在语音设备被第一语音信息唤醒的情况下,首先确定目标对象在所述第一语音信息中的唤醒指令之前的待处理语音中是否存在第一语音指令,在待处理语音中不存在第一语音指令的情况下,获取目标对象在发出所述第一语音信息之后发出的第二语音信息,将所述第二语音信息发送至云端服务器,以使云端服务器对第二语音信息进行识别。
在一个示例性实施例中,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,包括:对所述第一语音信息进行预处理,得到预处理后的第一语音信息;利用所述语音设备中配置的语音端点监测模块对所述预处理后的第一语音信息进行检测,根据检测结果从所述第一语音信息获取所述待处理语音;将所述待处理语音和/或所述第一语音信息存储至所述语音设备的录音缓存模块。
本发明实施例记载了,语音端点模块将预处理后的第一语音信息截取成待处理语音,并将待处理语音和/或所述第一语音信息缓存到语音设备的录音缓存模块,以使在语音设备被唤醒,以及待处理语音和/或第一语音信息中存在第一语音指令的情况下,将待处理语音和或第一语音信息发送至云端服务器,以使所述云端服务器再次识别待处理语音和或第一语音信息中是否存在第一语音指令。
举例来讲,在目标对象发出的语音信息为“小X小X,播放音乐,小X小X”,此时语音端点模块将语音信息截取为“播放音乐”。
在一个示例性实施例中,对所述第一语音信息进行预处理,得到预处理后的第一语音信息,包括:利用语音设备中配置的声学回声消除模块对所述第一语音信息进行降噪,得到降噪后的第一语音信息;利用所述语音设备中的自动增益控制模块对所述降噪后的第一语音信息进行增益控制,得到预处理后的第一语音信息。
为了更好的识别用户发出的语音信息,还可以将语音信息输入至声学回声消除模块和自动增益控制模块,以使对语音信息进行降噪和增益,进而使得语音信息更加清晰。
在一个示例性实施例中,检测所述待处理语音中是否存在第一语音指令,包括:将所述待处理语音输入到所述语音设备的本地识别模块,以使所述本地识别模块检测所述待处理语音中是否存在所述第一语音指令,所述第一语音指令包括对所述语音设备进行控制的交互指令。
也就是说,将待处理语音发送至本地识别模块,以使本地识别模块判断待处理语音中是否存在第一语音指令;在本地识别模块确定待处理语音中存在第一语音指令的情况下,将待处理语音和/或第一语音信息发送至云端服务器;在本地识别模块确定待处理语音中不存在第一语音指令的情况下,再次获取第二语音信息,其中,交互指令可以是设备操作控制指令、设备信息获取指令、云端信息获取指令等,本发明实施例对此不做限定。
在一个示例性实施例中,将所述待处理语音和/或所述第一语音信息发送至云端服务器之后,在所述云端服务器中配置的第二语音模型识别到所述待处理语音和/或所述第一语音信息中存在第二语音指令的情况下,接收所述云端服务器发送的操作控制指令,所述操作控制指令根据所述第二语音指令生成;根据所述操作控制指令控制目标设备执行所述第二语音指令表征的待执行操作。
具体来讲,将待处理语音和/或所述第一语音信息发送至云端服务器后,云端服务器识别待处理语音和/或所述第一语音信息中的语音指令,在云端服务器和语音设备识别到的语音指令一致的情况下,根据第一语音指令控制目标设备执行所述第一语音指令中的待执行操作;在云端服务器和语音设备识别到的语音指令不一致的情况下,根据云端服务器发送的操作控制指令控制目标设备执行所述操作控制指令中的待执行操作。
第一语音指令和第二语音指令时对同一段待处理语音信息进行处理后得到的结果;由于语音设备和云端的模型精度不同,识别到的第一语音指令和第二语音指令的识别结果可能相同,也可能不同。但最终以云端的大模型的识别结果(也即第二语音指令)为准。
举例来讲,在第一语音信息为“打开空调”的情况下,语音设备识别到的语音指令为“打开电视”,云端服务器识别到的语音指令为“打开空调”,由于云端的声学模型的精度更高,因此,根据云端服务器识别到的语音指令开启空调。
在一个示例性实施例中,在所述云端服务器中配置的第二语音模型未识别到所述待处理语音和/或所述第一语音信息中存在有效指令的情况下,接收所述云端服务器发送的识别结果,所述有效指令包括唤醒指令、语音指令中的至少一个;根据所述识别结果,不执行唤醒操作和/或不执行所述第一语音指令对应的操作。
也就是说,在云端服务器和语音设备未识别到的有效指令的情况下,确定所述第一语音信息中不存在语音指令和或唤醒指令,不控制目标设备进行目标操作。
为了更好的理解上述语音信息的处理方法的过程,以下再结合可选实施例对上述语音信息的识别的实现方法流程进行说明,但不用于限定本发明实施例的技术方案。
在本实施例中提供了一种语音信息的处理方法,图3是根据本发明实施例的语音信息的处理方法的示意图,如图3所示,包括:录音缓存区、本地识别模型、声学回声消除模块AEC、自动增益控制模块AGC,语音端点监测模块VAD、自然语言处理模块NLP。
步骤S301:接收目标对象发出的第一语音信息;
步骤S302:确定第一语音模型是否被所述第一语音信息唤醒,如果第一语音模型被所述第一语音信息唤醒,执行步骤S307;如果第一语音模型未被所述第一语音信息唤醒,执行步骤S301;
步骤S303:将所述第一语音信息输入所述语音设备中的声学回声消除模块;
步骤S304:将降噪后的第一语音信息输入所述语音设备中的自动增益控制模块;
步骤S305:将所述第一语音信息输入到所述语音设备的语音端点监测模块,以使所述语音端点监测模块将所述第一语音信息截取成待处理语音,其中,所述待处理语音不包括唤醒所述第一语音模型中的唤醒词;
步骤S306:将所述待处理语音输入到所述语音设备的本地识别模块,以使所述本地识别模块识别所述待处理语音中的第一语音指令;
步骤S307:确定待处理语音中是否存在第一语音指令,如果待处理语音中存在第一语音指令,执行步骤S308;如果待处理语音中存在第一语音指令,执行步骤S309-S313;
步骤S308:将所述待处理语音输入到云端服务器;
步骤S309:获取第二语音信息;
步骤S310:将所述第二语音信息输入所述语音设备中的声学回声消除模块;
步骤S311:将降噪后的第二语音信息输入所述语音设备中的自动增益控制模块;
步骤S312:将第二语音信息输入到所述语音设备的语音端点监测模块;
步骤S313:在语音端点监测模块检测到第二语音信息中存在出唤醒词之外的语音信息的情况下,将第二语音信息发送至云端服务器;
步骤S314:NLP处理第二语音信息。
本发明实施例通过本地识别模块对录音进行首轮识别和意图记录,当唤醒时,若唤醒前一段时间内有“指令”,则直接进行云端识别,不再继续拾音;若唤醒前一段时间内未有“指令记录”,则等待拾音,知道用户说出“指令”或超时结束本轮交互。通过对录音进行缓存,对本地识别结果进行云端二次识别,提高了识别的准确度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
在本实施例中提供了一种语音信息的处理装置,应用于上述移动终端,具体为语音设备,图4是根据本发明实施例的一种语音信息的识别装置的结构框图(一);如图4所示,包括:
获取模块42,用于将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;
检测模块44,用于在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;
发送模块46,用于在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理。
通过上述装置,将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理;采用上述技术方案,解决了语音设备需要提升硬件性能或实时将语音上传到云端才能准确地识别用户语音中语音指令等问题,进而语音设备无需提升硬件性能,也无需优化唤醒算法,所以具有成本低、实现快速的特点。由于并没有持续将录音上传至云端,所以很好的保护了用户隐私。由于唤醒指令的最终确认在云端,所以可以使用实时更新的大唤醒模型,很好的保证了语音识别的准确性。
具体的,所述语音设备可以理解为可以接收到语音信息的设备,例如,平板、音响等设备,在所述语音设备为音响的情况下,音响设备接收到“打开音乐,小X小X”的语音信息的情况下,将接收到的“打开音乐,小X小X”输入第一语音模型,以唤醒音响,从“打开音乐,小X小X”中获取在“小X小X”之前的“打开音乐”的待处理语音,检测“打开音乐”中是否存在语音指令;在检测到“打开音乐”中存在所述语音指令的情况下,将“打开音乐”和/或“打开音乐,小X小X”发送至云端服务器,以使所述云端服务器中配置的第二语音模型对“打开音乐”和/或“打开音乐,小X小X”进行处理,需要说明的是,上述举例仅是为了更好的理解本发明实施例,本发明实施例对语音设备、语音信息等信息不做限定。
在一个示例性实施例中,发送模块,还用于在确定所述待处理语音中不存在所述第一语音指令的情况下,获取所述目标对象发出的第二语音信息,其中,所述第二语音信息为所述第一语音信息之后检测到的语音信息;将所述第二语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述第二语音信息进行处理。
具体地,在语音设备被第一语音信息唤醒的情况下,首先确定目标对象在所述第一语音信息中的唤醒指令之前的待处理语音中是否存在第一语音指令,在待处理语音中不存在第一语音指令的情况下,获取目标对象在发出所述第一语音信息之后发出的第二语音信息,将所述第二语音信息发送至云端服务器,以使云端服务器对第二语音信息进行识别。
在一个示例性实施例中,图5是根据本发明实施例的一种语音信息的识别装置的结构框图(二);如图5所示,上述装置还包括:处理模块52,用于对所述第一语音信息进行预处理,得到预处理后的第一语音信息;利用所述语音设备中配置的语音端点监测模块对所述预处理后的第一语音信息进行检测,根据检测结果从所述第一语音信息获取所述待处理语音;将所述待处理语音和/或所述第一语音信息存储至所述语音设备的录音缓存模块。
本发明实施例记载了,语音端点模块将预处理后的第一语音信息截取成待处理语音,并将待处理语音和/或所述第一语音信息缓存到语音设备的录音缓存模块,以使在语音设备被唤醒,以及待处理语音和/或第一语音信息中存在第一语音指令的情况下,将待处理语音和或第一语音信息发送至云端服务器,以使所述云端服务器再次识别待处理语音和或第一语音信息中是否存在第一语音指令。
举例来讲,在目标对象发出的语音信息为“小X小X,播放音乐,小X小X”,此时语音端点模块将语音信息截取为“播放音乐”。
在一个示例性实施例中,处理模块,还用于利用语音设备中配置的声学回声消除模块对所述第一语音信息进行降噪,得到降噪后的第一语音信息;利用所述语音设备中的自动增益控制模块对所述降噪后的第一语音信息进行增益控制,得到预处理后的第一语音信息。
为了更好的识别用户发出的语音信息,还可以将语音信息输入至声学回声消除模块和自动增益控制模块,以使对语音信息进行降噪和增益,进而使得语音信息更加清晰。
在一个示例性实施例中,检测模块,还用于将所述待处理语音输入到所述语音设备的本地识别模块,以使所述本地识别模块检测所述待处理语音中是否存在所述第一语音指令,所述第一语音指令包括对所述语音设备进行控制的交互指令。
也就是说,将待处理语音发送至本地识别模块,以使本地识别模块判断待处理语音中是否存在第一语音指令;在本地识别模块确定待处理语音中存在第一语音指令的情况下,将待处理语音和或第一语音信息发送至云端服务器;在本地识别模块确定待处理语音中不存在第一语音指令的情况下,再次获取第二语音信息,其中,交互指令可以是设备操作控制指令、设备信息获取指令、云端信息获取指令等,本发明实施例对此不做限定。
在一个示例性实施例中,获取模块,还用于在所述云端服务器中配置的第二语音模型识别到所述待处理语音和/或所述第一语音信息中存在第二语音指令的情况下,接收所述云端服务器发送的操作控制指令,所述操作控制指令根据所述第二语音指令生成;根据所述操作控制指令控制目标设备执行所述第二语音指令表征的待执行操作。
具体来讲,将待处理语音,和/或,所述第一语音信息发送至云端服务器后,云端服务器识别待处理语音,和/或,所述第一语音信息中的语音指令,在云端服务器和语音设备识别到的语音指令一致的情况下,根据第一语音指令控制目标设备执行所述第一语音指令中的待执行操作;在云端服务器和语音设备识别到的语音指令不一致的情况下,根据云端服务器发送的操作控制指令控制目标设备执行所述操作控制指令中的待执行操作。
具体来讲,将待处理语音,和/或,所述第一语音信息发送至云端服务器后,云端服务器识别待处理语音,和/或,所述第一语音信息中的语音指令,在云端服务器和语音设备识别到的语音指令一致的情况下,根据第一语音指令控制目标设备执行所述第一语音指令中的待执行操作;在云端服务器和语音设备识别到的语音指令不一致的情况下,根据云端服务器发送的操作控制指令控制目标设备执行所述操作控制指令中的待执行操作。
举例来讲,在第二语音信息为“打开空调”的情况下,语音设备识别到的语音指令为“打开电视”,云端服务器识别到的语音指令为“打开空调”,由于云端的声学模型的精度更高,因此,根据云端服务器识别到的语音指令开启空调。
在一个示例性实施例中,所述获取模块,还用于在所述云端服务器中配置的第二语音模型未识别到所述待处理语音和/或所述第一语音信息中存在有效指令的情况下,接收所述云端服务器发送的识别结果,所述有效指令包括唤醒指令、语音指令中的至少一个;根据所述识别结果,不执行唤醒操作和/或不执行所述第一语音指令对应的操作。
也就是说,在云端服务器和语音设备未识别到的有效指令的情况下,确定所述第一语音信息中不存在语音指令和或唤醒指令,不控制目标设备进行目标操作。
本发明的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;
S2,在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;
S3,在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;
S2,在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;
S3,在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(RandomAccess Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音信息的处理方法,应用于语音设备,其特征在于,包括:
将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;
在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;
在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理。
2.根据权利要求1所述的语音信息的处理方法,其特征在于,所述方法还包括:
在确定所述待处理语音中不存在所述第一语音指令的情况下,获取第二语音信息,其中,所述第二语音信息为所述第一语音信息之后检测到的语音信息;
将所述第二语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述第二语音信息进行处理。
3.根据权利要求1或2所述的语音信息的处理方法,其特征在于,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,包括:
对所述第一语音信息进行预处理,得到预处理后的第一语音信息;
利用所述语音设备中配置的语音端点监测模块对所述预处理后的第一语音信息进行检测,根据检测结果从所述第一语音信息获取所述待处理语音;
将所述待处理语音和/或所述第一语音信息存储至所述语音设备的录音缓存模块。
4.根据权利要求3所述的语音信息的处理方法,其特征在于,所述对所述第一语音信息进行预处理,得到预处理后的第一语音信息,包括:
利用语音设备中配置的声学回声消除模块对所述第一语音信息进行降噪,得到降噪后的第一语音信息;
利用所述语音设备中的自动增益控制模块对所述降噪后的第一语音信息进行增益控制,得到预处理后的第一语音信息。
5.根据权利要求1至4任一项所述的语音信息的处理方法,其特征在于,检测所述待处理语音中是否存在第一语音指令,包括:
将所述待处理语音输入到所述语音设备的本地识别模块,以使所述本地识别模块检测所述待处理语音中是否存在所述第一语音指令,所述第一语音指令包括对所述语音设备进行控制的交互指令。
6.根据权利要求1至5任一项所述的语音信息的处理方法,其特征在于,将所述待处理语音和/或所述第一语音信息发送至云端服务器之后,所述方法还包括:
在所述云端服务器中配置的第二语音模型识别到所述待处理语音和/或所述第一语音信息中存在第二语音指令的情况下,接收所述云端服务器发送的操作控制指令,所述操作控制指令根据所述第二语音指令生成;
根据所述操作控制指令控制目标设备执行所述第二语音指令表征的待执行操作。
7.根据权利要求1-5任一项所述的语音信息的处理方法,其特征在于,将所述待处理语音和/或所述第一语音信息发送至云端服务器之后,所述方法还包括:
在所述云端服务器中配置的第二语音模型未识别到所述待处理语音和/或所述第一语音信息中存在有效指令的情况下,接收所述云端服务器发送的识别结果,所述有效指令包括唤醒指令、语音指令中的至少一个;
根据所述识别结果,不执行唤醒操作和/或不执行所述第一语音指令对应的操作。
8.一种语音信息的识别装置,其特征在于,包括:
获取模块,用于将接收到的第一语音信息输入所述语音设备中配置的第一语音模型,得到语音唤醒结果;
检测模块,用于在所述语音唤醒结果表征所述第一语音信息中存在唤醒指令的情况下,从所述第一语音信息中获取在所述唤醒指令之前的待处理语音,检测所述待处理语音中是否存在第一语音指令;
发送模块,用于在检测到所述待处理语音中存在所述第一语音指令的情况下,将所述待处理语音和/或所述第一语音信息发送至云端服务器,以使所述云端服务器中配置的第二语音模型对所述待处理语音和/或所述第一语音信息进行处理。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111081668.XA CN113889116A (zh) | 2021-09-15 | 2021-09-15 | 语音信息的处理方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111081668.XA CN113889116A (zh) | 2021-09-15 | 2021-09-15 | 语音信息的处理方法和装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113889116A true CN113889116A (zh) | 2022-01-04 |
Family
ID=79009411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111081668.XA Pending CN113889116A (zh) | 2021-09-15 | 2021-09-15 | 语音信息的处理方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113889116A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117742792A (zh) * | 2024-02-20 | 2024-03-22 | 青岛海尔科技有限公司 | 基于大模型的指令执行设备选取方法、装置、设备和介质 |
CN117742792B (zh) * | 2024-02-20 | 2024-05-24 | 青岛海尔科技有限公司 | 基于大模型的指令执行设备选取方法、装置、设备和介质 |
-
2021
- 2021-09-15 CN CN202111081668.XA patent/CN113889116A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117742792A (zh) * | 2024-02-20 | 2024-03-22 | 青岛海尔科技有限公司 | 基于大模型的指令执行设备选取方法、装置、设备和介质 |
CN117742792B (zh) * | 2024-02-20 | 2024-05-24 | 青岛海尔科技有限公司 | 基于大模型的指令执行设备选取方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111223497B (zh) | 一种终端的就近唤醒方法、装置、计算设备及存储介质 | |
CN106910500B (zh) | 对带麦克风阵列的设备进行语音控制的方法及设备 | |
CN109473092B (zh) | 一种语音端点检测方法及装置 | |
CN108962262B (zh) | 语音数据处理方法和装置 | |
CN109410952B (zh) | 一种语音唤醒方法、装置及系统 | |
CN102779509B (zh) | 语音处理设备和语音处理方法 | |
CN111161714B (zh) | 一种语音信息处理方法、电子设备及存储介质 | |
CN111968644B (zh) | 智能设备唤醒方法、装置及电子设备 | |
CN109920419B (zh) | 语音控制方法和装置、电子设备及计算机可读介质 | |
CN110767225B (zh) | 一种语音交互方法、装置及系统 | |
CN110875045A (zh) | 一种语音识别方法、智能设备和智能电视 | |
CN108932947B (zh) | 语音控制方法及家电设备 | |
CN112489648A (zh) | 唤醒处理阈值调整方法、语音家电、存储介质 | |
CN112634897B (zh) | 设备唤醒方法、装置和存储介质及电子装置 | |
CN108922522B (zh) | 设备的控制方法、装置、存储介质及电子装置 | |
CN113593548A (zh) | 智能设备的唤醒方法和装置、存储介质及电子装置 | |
CN113593544A (zh) | 设备的控制方法和装置、存储介质及电子装置 | |
CN114791771A (zh) | 智能语音鼠标的交互管理系统及管理方法 | |
CN108322770A (zh) | 视频节目识别方法、相关装置、设备和系统 | |
CN111128150A (zh) | 一种唤醒智能语音设备的方法及装置 | |
CN111862965A (zh) | 唤醒处理方法、装置、智能音箱及电子设备 | |
CN112133296A (zh) | 全双工语音控制方法、装置、存储介质及语音设备 | |
CN113889116A (zh) | 语音信息的处理方法和装置、存储介质及电子装置 | |
CN111240634A (zh) | 音箱工作模式调整方法和装置 | |
CN112837694A (zh) | 设备唤醒方法、装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |