CN111292732B - 音频信息处理方法、装置、计算机设备和存储介质 - Google Patents
音频信息处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111292732B CN111292732B CN201811487110.XA CN201811487110A CN111292732B CN 111292732 B CN111292732 B CN 111292732B CN 201811487110 A CN201811487110 A CN 201811487110A CN 111292732 B CN111292732 B CN 111292732B
- Authority
- CN
- China
- Prior art keywords
- voice
- information
- interaction system
- audio information
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 27
- 238000003672 processing method Methods 0.000 title abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 158
- 230000004044 response Effects 0.000 claims abstract description 103
- 238000001514 detection method Methods 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 36
- 230000007613 environmental effect Effects 0.000 claims abstract description 16
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000004891 communication Methods 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及一种音频信息处理方法、装置、计算机设备和存储介质。所述方法包括:当检测到语音交互系统输出的语音回答时,触发采集指令;响应于采集指令,在输出语音回答的过程中实时采集音频信息;滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息;根据目标音频信息确定语音信息检测结果;当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答。采用本申请的方案,用户只需要通过重新发出语音的方式中断语音交互系统当前输出的语音回答,语音交互系统便可以根据用户发出的新的语音重新输出语音回答,提高了语音交互的效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种音频信息处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展。语音交互被越来越多的用户接受和使用。随着人们对语音交互的要求越来越高,出现了语音交互系统,用户与语音交互系统间的对话可以一问一答的模式交替进行。当用户对语音交互系统发出语音指令时,语音交互系统会根据用户的语音指令作出对应的语音回答。
但是,传统的语音交互系统,在用户已经明白了该语音回答的意图,或不关心系统作出的语音回答的后半部分内容,或有更重要的语音指令要发出等情况时,用户只能等到语音交互系统将当前的语音回答播报完毕后,才能继续进行下一步操作,导致语音交互的效率低。
发明内容
基于此,有必要针对上述问题,提供一种能够提高语音交互的效率的音频信息处理方法、装置、计算机设备和存储介质。
一种音频信息处理方法,所述方法包括:
当检测到语音交互系统输出的语音回答时,触发采集指令;
响应于采集指令,在输出语音回答的过程中实时采集音频信息;
滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息;
根据目标音频信息确定语音信息检测结果;
当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答。
在其中一个实施例中,当检测到语音交互系统输出的语音回答时,触发采集指令的步骤之前,所述方法还包括:
获取用户语音信息;
根据用户语音信息确定语音回答;
按照语音回答控制语音交互系统输出语音回答。
在其中一个实施例中,响应于采集指令,在输出语音回答的过程中实时采集音频信息包括:
在输出语音回答的过程中,根据采集指令调用应用程序编程接口;
通过应用程序编程接口在输出语音回答的过程中实时采集音频;
对采集的音频进行编码,得到音频信息。
在其中一个实施例中,根据目标音频信息确定语音信息检测结果包括:
当识别出目标音频信息包括语音信息时,确定语音信息检测结果为目标音频信息所包括的语音信息;
当识别出目标音频信息不包括语音信息时,确定语音信息检测结果为空值。
在其中一个实施例中,所述方法还包括:
当检测到语音交互系统当前输出的语音回答被中断时,根据语音信息检测结果重新确定相应的语音回答;
控制语音交互系统输出重新确定的语音回答;
继续执行当检测到语音交互系统输出的语音回答时,触发采集指令的步骤。
在其中一个实施例中,当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答包括:
当语音信息检测结果为语音信息时,根据语音条件获取语音信息对应的判断信息;
根据判断信息判断语音信息是否符合语音条件;
在语音信息符合语音条件时,中断语音交互系统当前输出的语音回答。
一种音频信息处理装置,所述装置包括:
系统语音检测模块,用于当检测到语音交互系统输出的语音回答时,触发采集指令;
无线通信模块,用于响应于采集指令,在输出语音回答的过程中实时采集音频信息;滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答,得到目标音频信息;根据目标音频信息确定语音信息检测结果;
系统语音中断模块,用于当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现以下步骤:
当检测到语音交互系统输出的语音回答时,触发采集指令;
响应于采集指令,在输出语音回答的过程中实时采集音频信息;
滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息;
根据目标音频信息确定语音信息检测结果;
当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
当检测到语音交互系统输出的语音回答时,触发采集指令;
响应于采集指令,在输出语音回答的过程中实时采集音频信息;
滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息;
根据目标音频信息确定语音信息检测结果;
当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答。
上述音频信息处理方法、装置、计算机设备和存储介质,在检测到语音交互系统输出的语音回答时,便在语音交互系统输出语音回答的过程中,实时采集音频信息,将采集的音频信息中的环境噪声信息和语音交互系统输出的语音回答信息滤除,得到目标音频信息,若根据目标音频信息确定的语音信息检测结果为用户语音信息时,说明用户发出了新的语音,则中断语音交互系统当前输出的语音回答。采用本申请的方案,用户只需要通过重新发出语音的方式中断语音交互系统当前输出的语音回答,语音交互系统便可以根据用户发出的新的语音重新输出语音回答,提高了语音交互的效率。
附图说明
图1为一个实施例中计算机设备的内部结构图;
图2为另一个实施例中计算机设备的内部结构图;
图3为一个实施例中音频信息处理方法的流程示意图;
图4为一个实施例中音频信息处理装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明实施例提供的音频信息处理方法,可以应用于如图1所示的计算机设备。该计算机设备可以为终端,该计算机设备包括存储器、处理器、网络接口、显示屏和输入装置。存储器中存储有计算机程序,计算机程序被处理器执行时,可以实现本发明实施例提供的音频信息处理方法。其中,终端可以是各种个人计算机、笔记本电脑、智能手机、智能机器人、平板电脑、手写板或便携式可穿戴设备等等。
如图2所示,该计算机设备200中包括无线通信模块201、语音交互系统202、应用程序编程接口203和应用程序204。其中,语音交互系统是基于语音输入的交互模式,通过输入的语音就可以输出对应的语音回答的系统。应用程序编程接口(API接口)为操作系统(Operating system)或程序库提供给应用程序调用所使用的代码。无线通信模块可以为SC820模块,该SC820模块具有八核A53处理器,主频高达2.0GHz,支持双屏异显,支持4K视频编解码,支持Android7.0。
具体地,当应用程序204检测到语音交互系统202输出的语音回答时,触发采集指令,响应于采集指令,应用程序204调用应用程序编程接口203,无线通信模块201通过应用程序编程接口203在语音交互系统202输出语音回答的过程中实时采集音频信息。
无线通信模块201滤除采集的音频信息中的环境噪声信息和语音交互系统202输出的语音回答,得到目标音频信息,根据目标音频信息确定语音信息检测结果。无线通信模块201将语音信息检测结果通过应用程序编程接口203发送至应用程序204,当语音信息检测结果为语音信息时,应用程序204中断语音交互系统当前输出的语音回答。
在一个实施例中,如图3所示,提供了一种音频信息处理方法,以该方法应用于图2中的计算机设备为例进行说明,该方法包括以下步骤:
步骤S302,当检测到语音交互系统输出的语音回答时,触发采集指令。
具体地,计算机设备可以设置有预设的虚拟按钮,该虚拟按钮可以触发对于语音交互系统的检测指令。当该虚拟按钮被触碰时,触发检测指令,计算机设备的应用程序可以根据该检测指令开始实时检测语音交互系统是否输出了语音回答。
或者,只要计算机设备处于开机状态,计算机设备的应用程序便实时检测语音交互系统是否输出了语音回答。或者,当计算机设备的语音交互系统处于运行状态时,计算机设备的应用程序便开始实时检测语音交互系统是否输出了语音回答。
当计算机设备的应用程序检测到计算机设备的语音交互系统输出的语音回答时,触发采集指令。根据采集指令开启计算机设备的无线通信模块,该无线通信模块通过计算机设备的应用程序进入计算机设备的语音交互系统。
步骤S304,响应于采集指令,在输出语音回答的过程中实时采集音频信息。
其中,音频信息指音频的数字化信息。数字化信息是可以被计算机所识别的信息。
具体地,响应于采集指令,计算机设备的应用程序调用计算机设备的应用程序编程接口。计算机设备的无线通信模块通过应用程序编程接口在语音交互系统输出语音回答的过程中实时采集音频信息。可以理解的是,无线通信模块在语音交互系统输出语音回答的过程中实时采集的音频信息包括当前计算机设备接收到的所有的音频信息。该音频信息可能包括环境噪声信息、语音交互系统输出的语音回答信息和用户语音信息,该音频信息也可能只包括环境噪声信息和系统输出的语音回答信息。
步骤S306,滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息。
其中,环境噪声信息指环境噪声的数字化信息。语音交互系统输出的语音回答信息指语音交互系统输出的语音回答的数字化信息。
具体地,计算机设备的无线通信模块对采集的音频信息进行过滤。对采集的音频信息进行过滤包括对采集的音频信息中的环境噪声信息和语音交互系统输出的语音回答信息进行滤除。过滤后的音频信息可能包括语音信息,也可能不包括语音信息,无线通信模块将过滤后的音频信息确定为目标音频信息。
步骤S308,根据目标音频信息确定语音信息检测结果。
具体地,计算机设备的无线通信模块可以根据目标音频信息确定语音信息检测结果。进一步地,该语音检测结果可以为具体的值,例如,目标音频信息中不包括语音信息,则语音检测结果为空值;目标音频信息中包括语音信息,则语音检测结果为目标音频信息中包括的语音信息。无线通信模块确定语音信息检测结果后,可以将该语音信息检测结果通过应用程序编程接口发送至计算机设备的应用程序。
步骤S310,当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答。
具体地,计算机设备的应用程序通过应用程序编程接口接收无线通信模块发送的语音信息检测结果。当语音检测结果的为语音信息时,说明该语音信息为用户在语音交互系统输出语音回答的过程中发出的语音信息,则计算机设备的应用程序中断语音交互系统当前输出的语音回答。
在一个实施例中,当语音检测结果为空值时,说明在语音交互系统输出语音回答的过程中用户未发出任何的语音信息,则计算机设备的无线通信模块继续执行在输出语音回答的过程中实时采集音频信息的步骤。
上述音频信息处理方法中,在检测到语音交互系统输出的语音回答时,便开始在语音交互系统输出语音回答的过程中,实时采集音频信息,将采集的音频信息中的环境噪声信息和语音交互系统输出的语音回答滤除,得到目标音频信息,若根据目标音频信息确定的语音信息检测结果为用户语音信息时,说明用户发出了新的语音,则中断语音交互系统当前输出的语音回答。采用本申请的方案,用户只需要通过重新发出语音的方式中断语音交互系统当前输出的语音回答,语音交互系统便可以根据用户发出的新的语音重新输出语音回答,提高了语音交互的效率。
在一个实施例中,当检测到语音交互系统输出的语音回答时,触发采集指令的步骤之前,该音频信息处理方法还包括:获取用户语音信息;根据用户语音信息确定语音回答;按照语音回答控制语音交互系统输出语音回答。
其中,用户语音信息为用户语音的数字化信息。具体地,计算机设备可以设置有用于开启计算机设备的语音交互系统的虚拟按钮,当该虚拟按钮被触发时,语音交互系统启动。或者,计算机设备可以设置有用于开启计算机设备的语音交互系统的手势,当计算机设备检测到该手势时,语音交互系统启动。计算机设备的语音交互系统启动后,实时检测用户语音,当检测到用户语音时,根据该用户语音获取用户语音信息。语音交互系统根据获取的用户语音信息确定对应的语音回答,并按照该语音回答输出语音回答。实现了用户与计算机设备间的语音交互。
在一个实施例中,响应于采集指令,在输出语音回答的过程中实时采集音频信息包括:在输出语音回答的过程中,根据采集指令调用应用程序编程接口;通过应用程序编程接口实时采集音频;对采集的音频进行编码,得到音频信息。
具体地,计算机设备的应用程序,根据采集指令调用应用程序编程接口。计算机设备的无线通信模块通过应用程序编程接口,在语音交互系统输出语音回答的过程中实时采集音频。可以理解的是,无线通信模块通过应用程序编程接口在语音交互系统输出语音回答的过程中,实时采集的音频包括当前计算机设备接收到的所有的音频。该音频可能包括环境噪声、语音交互系统输出的语音回答和用户语音,该音频也可能只包括环境噪声和系统输出的语音回答。无线通信模块对采集的音频进行编码,得到计算机设备可以识别的音频信息。
本实施例中,通过调用应用程序编程接口实现在语音交互系统输出语音回答的过程中实时采集音频,并对采集的音频进行编码,得到计算机能够识别的音频信息,提高了音频信息的采集效率。
在一个实施例中,根据目标音频信息确定语音信息检测结果包括:当识别出目标音频信息包括语音信息时,确定语音信息检测结果为目标音频信息所包括的语音信息;当识别出目标音频信息不包括语音信息时,确定语音信息检测结果为空值。
具体地,由于目标音频信息就是过滤后的音频信息,若过滤后的音频信息包括语音信息,则目标音频信息也包括语音信息。计算机设备的无线通信模块对目标音频信息进行识别,当识别出目标音频信息包括语音信息时,说明用户在语音交互系统输出语音回答的过程中发出了语音,则确定语音信息检测结果为目标音频信息所包括的语音信息。当识别出目标音频信息不包括语音信息时,说明用户在语音交互系统输出语音回答的过程中未发出任何语音,则确定语音信息检测结果为空值。
本实施例中,通过识别目标音频信息中是否包括语音信息,可以确定用户在语音交互系统输出语音回答的过程中是否发出语音。根据目标音频信息中是否包括语音信息来确定语音信息检测结果,语音信息检测结果的准确性高。
在一个实施例中,该音频信息处理方法还包括:当检测到语音交互系统当前输出的语音回答被中断时,根据语音信息检测结果重新确定相应的语音回答;控制语音交互系统输出重新确定的语音回答;继续执行当检测到语音交互系统输出的语音回答时,触发采集指令的步骤。
具体地,当计算机设备的语音交互系统当前输出的语音回答被中断时,语音交互系统获取语音信息检测结果包括的语音信息,根据语音信息检测结果包括的语音信息重新确定相应的语音回答,并输出重新确定的语音回答。继续执行当检测到语音交互系统输出的语音回答时,触发采集指令的步骤。
本实施例中,用户无需等到语音交互系统将当前的语音回答播报完毕,就可以通过发出语音的方式中断语音交互系统当前的语音回答,当语音交互系统当前输出的语音回答被中断时,可以根据语音信息检测结果重新确定相应的语音回答并输出,提高了语音交互的效率。
在一个实施例中,当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答包括:当语音信息检测结果为语音信息时,根据语音条件获取语音信息对应的判断信息;根据判断信息判断语音信息是否符合语音条件;在语音信息符合语音条件时,中断语音交互系统当前输出的语音回答。
其中,语音条件是判断语音信息是否为用户向语音交互系统发出的语音的条件。判断信息是用于判断语音信息是否符合语音条件的信息,比如语音条件为语音信息对应的音量值是否达到音量阈值,则语音信息对应的音量值便为判断信息。
具体地,当语音信息检测结果为语音信息时,计算机设备的语音交互系统根据语音条件获取语音信息对应的判断信息,根据该判断信息判断该语音信息是否符合语音条件,当该语音信息符合语音条件时,计算机设备的应用程序中断语音交互系统当前输出的语音回答。当该语音信息不符合语音条件时,计算机设备的无线通信模块继续执行在输出语音回答的过程中实时采集音频信息的步骤。
本实施例中,通过识别语音信息是否满足语音条件,可以更加准确地确定语音信息是否为用户向语音交互系统发出的语音。
在一个实施例中,语音条件可以为语音信息对应的音量值是否达到音量阈值,则判断信息为语音信息对应的音量值。当语音信息对应的音量值大于或等于音量阈值时,确定语音信息符合语音条件。当语音信息的音量值小于音量阈值时,确定语音信息不符合语音条件。
在一个实施例中,语音条件可以为语音信息所对应语音源与计算机设备的距离是否达到距离阈值,则判断信息为语音信息所对应语音源与计算机设备的距离。当语音信息所对应语音源与计算机设备的距离小于或等于距离阈值时,确定语音信息符合语音条件。当语音信息所对应语音源与计算机设备的距离大于距离阈值时,确定语音信息不符合语音条件。
进一步地,语音信息与计算机设备的距离可以根据语音信息对应的音量值来确定。计算机设备可以设置有多个音量范围,每个音量范围都有对应的预测距离,该预测距离表示语音信息所对应语音源与计算机设备的距离。根据语音信息对应的音量值确定对应的音量范围,根据该音量范围便能确定语音信息所对应语音源与计算机设备的距离。
在一个实施例中,语音条件可以为语音信息所对应的传播方向和计算机设备的语音接收器的位置间的角度偏差是否属于偏差阈值,则判断信息为语音信息所对应的传播方向和计算机设备的语音接收器的位置间的角度偏差。当该角度偏差小于或等于偏差阈值时,确定语音信息符合语音条件。当该角度偏差大于偏差阈值时,确定语音信息不符合语音条件。
以计算机设备为智能机器人为例,若语音信息所对应的传播方向为机器人的正后方,机器人的语音接收器的位置在机器人的正前方,则语音信息所对应的传播方向和机器人的语音接收器的位置间的角度偏差为180度,若偏差阈值为30度,180度大于30度,则确定该语音信息不符合语音条件。
在一个实施例中,对音频信息处理方法进行举例说明。例如计算机设备为导航仪,用户在开车过程中想要获知当前的路况信息,向导航仪的语音交互系统发出语音“当前的路况怎么样?”语音交互系统获取“当前的路况怎么样?”所对应的语音信息,根据该语音信息确定语音回答并输出。导航仪的无线通信模块在语音交互系统输出语音回答的过程中实时采集音频信息,滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息。
若语音交互系统输出的语音回答为“无法获知你当前的位置,请…”此时用户已经知道语音交互系统想要表达的意思了,不需要语音交互系统继续输出语音回答。为了节省时间和快速获得想要获取的信息,用户可以再次向语音交互系统发出语音“打开我的位置信息”。此时,导航仪的无线通信模块得到的目标音频信息便包括“打开我的位置信息”所对应的语音信息,无线通信模块根据目标音频信息所确定的语音信息检测结果便为“打开我的位置信息”所对应的语音信息,则导航仪的应用程序中断当前输出语音交互系统的语音回答。语音交互系统根据“打开我的位置信息”所对应的语音信息重新确定语音回答“好的,已打开位置信息”,并输出“好的,已打开位置信息”。
在一个实施例中,对音频信息处理方法进行举例说明。例如计算机设备为智能机器人,该智能机器人可以用于为用户提供咨询服务,当用户想要了解金融投资产品时,向智能机器人的语音交互系统发出语音“请问有没有适合我的金融投资产品?”,语音交互系统获取“请问有没有适合我的金融投资产品?”所对应的语音信息,根据该语音信息确定语音回答并输出。智能机器人的无线通信模块在语音交互系统输出语音回答的过程中实时采集音频信息,滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息。
若语音交互系统输出的语音回答为“请问您想要了解以下哪种金融产品:基金类产品、股票类产品、保险类产品……”用户想要了解保险类产品,则不需要语音交互系统继续输出语音回答。为了节省时间和快速获得想要获取的信息,用户可以再次向语音交互系统发出语音“我需要了解保险类产品”。此时,无线通信模块得到的目标音频信息便包括“我需要了解保险类产品”所对应的语音信息,智能机器人的无线通信模块根据目标音频信息所确定的语音信息检测结果便为“我需要了解保险类产品”所对应的语音信息,则智能机器人的应用程序中断当前输出语音交互系统的语音回答。语音交互系统根据“我需要了解保险类产品”所对应的语音信息重新确定语音回答“请问您想要了解以下哪种保险类产品:意外保险、医疗保险……”,并输出“请问您想要了解以下哪种保险类产品:意外保险、医疗保险……”。
在一个实施例中,对音频信息处理方法进行举例说明。例如计算机设备为智能手机,当用户想要打开A应用程序时,向智能手机的语音交互系统发出语音“帮我打开A应用程序”,语音交互系统获取“帮我打开A应用程序”所对应的语音信息,根据该语音信息确定语音回答并输出。智能手机的无线通信模块在语音交互系统输出语音回答的过程中实时采集音频信息,滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息。
若语音交互系统输出的语音回答为“没有找到……”此时,用户已经知道语音交互系统想要表达的意思了,不需要语音交互系统继续输出语音回答。为了节省时间和快速获得想要获取的信息,用户可以再次向语音交互系统发出语音“帮我下载A应用程序”,此时,智能手机的无线通信模块得到的目标音频信息便包括“帮我下载A应用程序”所对应的语音信息,智能手机的无线通信模块根据目标音频信息所确定的语音信息检测结果便为“帮我下载A应用程序”所对应的语音信息,则智能手机的应用程序中断当前输出语音交互系统的语音回答。语音交互系统根据“帮我下载A应用程序”所对应的语音信息重新确定语音回答“好的,现在开始下载A应用程序”,并输出“好的,现在开始下载A应用程序”。
应该理解的是,虽然图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种音频信息处理装置400,该装置包括:系统语音检测模块401、无线通信模块402和系统语音中断模块403,其中:
系统语音检测模块401,用于当检测到语音交互系统输出的语音回答时,触发采集指令;
无线通信模块402,用于响应于采集指令,在输出语音回答的过程中实时采集音频信息;滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答,得到目标音频信息;根据目标音频信息确定语音信息检测结果;
系统语音中断模块403,用于当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答。
在一个实施例中,该音频信息处理装置还包括系统语音输出模块,用于获取用户语音信息;根据用户语音信息确定语音回答;按照语音回答控制语音交互系统输出语音回答。
在一个实施例中,无线通信模块还用于在输出语音回答的过程中,根据采集指令调用应用程序编程接口;通过应用程序编程接口实时采集音频;对采集的音频进行编码,得到音频信息。
在一个实施例中,无线通信模块还用于当识别出所述目标音频信息包括语音信息时,确定语音信息检测结果为所述目标音频信息所包括的语音信息;
当识别出所述目标音频信息不包括语音信息时,确定语音信息检测结果为空值。
在一个实施例中,系统语音输出模块还用于当检测到语音交互系统当前输出的语音回答被中断时,根据语音信息检测结果重新确定相应的语音回答;控制语音交互系统输出重新确定的语音回答;继续执行当检测到语音交互系统输出的语音回答时,触发采集指令的步骤。
在一个实施例中,系统语音中断模块还用于当语音信息检测结果为语音信息时,根据语音条件获取语音信息对应的判断信息;根据判断信息判断语音信息是否符合语音条件;在语音信息符合语音条件时,中断语音交互系统当前输出的语音回答。
关于音频信息处理装置的具体限定可以参见上文中对于音频信息处理方法的限定,在此不再赘述。上述音频信息处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频信息处理方法。该计算机设备的输入装置可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
当检测到语音交互系统输出的语音回答时,触发采集指令;
响应于采集指令,在输出语音回答的过程中实时采集音频信息;
滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息;
根据目标音频信息确定语音信息检测结果;
当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
当检测到语音交互系统输出的语音回答时,触发采集指令;
响应于采集指令,在输出语音回答的过程中实时采集音频信息;
滤除音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息;
根据目标音频信息确定语音信息检测结果;
当语音信息检测结果为语音信息时,中断语音交互系统当前输出的语音回答。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种音频信息处理方法,所述方法包括:
当检测到语音交互系统输出的语音回答时,触发采集指令;
在输出所述语音回答的过程中,根据所述采集指令调用应用程序编程接口;
无线通信模块通过所述应用程序编程接口在输出所述语音回答的过程中实时采集音频;
对采集的所述音频进行编码,得到音频信息;
滤除所述音频信息中的环境噪声信息和语音交互系统输出的语音回答信息,得到目标音频信息;
根据所述目标音频信息确定语音信息检测结果;
当所述语音信息检测结果为语音信息时,根据语音条件获取所述语音信息对应的判断信息,根据所述判断信息判断所述语音信息是否符合语音条件,在所述语音信息符合语音条件时,中断所述语音交互系统当前输出的语音回答;所述语音条件为所述语音信息对应语音源与计算机设备的距离小于或等于距离阈值;
当所述语音信息检测结果为空值时,继续执行在输出所述语音回答的过程中实时采集所述音频信息的步骤。
2.根据权利要求1所述的方法,其特征在于,所述当检测到语音交互系统输出的语音回答时,触发采集指令的步骤之前,所述方法还包括:
获取用户语音信息;
根据所述用户语音信息确定语音回答;
按照所述语音回答控制语音交互系统输出语音回答。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频信息确定语音信息检测结果包括:
当识别出所述目标音频信息包括语音信息时,确定语音信息检测结果为所述目标音频信息所包括的语音信息;
当识别出所述目标音频信息不包括语音信息时,确定语音信息检测结果为空值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当检测到所述语音交互系统当前输出的语音回答被中断时,根据所述语音信息检测结果重新确定相应的语音回答;
控制所述语音交互系统输出重新确定的语音回答;
继续执行所述当检测到语音交互系统输出的语音回答时,触发采集指令的步骤。
5.一种音频信息处理装置,所述装置包括:
系统语音检测模块,用于当检测到语音交互系统输出的语音回答时,触发采集指令;
无线通信模块,用于在输出所述语音回答的过程中,根据所述采集指令调用应用程序编程接口;无线通信模块通过所述应用程序编程接口在输出所述语音回答的过程中实时采集音频;对采集的所述音频进行编码,得到音频信息;滤除所述音频信息中的环境噪声信息和语音交互系统输出的语音回答,得到目标音频信息;根据所述目标音频信息确定语音信息检测结果;
系统语音中断模块,用于当所述语音信息检测结果为语音信息时,根据语音条件获取所述语音信息对应的判断信息,根据所述判断信息判断所述语音信息是否符合语音条件,在所述语音信息符合语音条件时,中断所述语音交互系统当前输出的语音回答;所述语音条件为所述语音信息对应语音源与计算机设备的距离小于或等于距离阈值;当所述语音信息检测结果为空值时,继续执行在输出所述语音回答的过程中实时采集所述音频信息的步骤。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括系统语音输出模块,用于获取用户语音信息;根据所述用户语音信息确定语音回答;按照所述语音回答控制语音交互系统输出语音回答。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现权利要求1至4中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811487110.XA CN111292732B (zh) | 2018-12-06 | 2018-12-06 | 音频信息处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811487110.XA CN111292732B (zh) | 2018-12-06 | 2018-12-06 | 音频信息处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111292732A CN111292732A (zh) | 2020-06-16 |
CN111292732B true CN111292732B (zh) | 2023-07-21 |
Family
ID=71027799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811487110.XA Active CN111292732B (zh) | 2018-12-06 | 2018-12-06 | 音频信息处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111292732B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614491B (zh) * | 2020-12-11 | 2024-03-08 | 广州橙行智动汽车科技有限公司 | 一种车载语音交互方法、装置、车辆、可读介质 |
CN112951226A (zh) * | 2021-01-29 | 2021-06-11 | 成都锐美动力科技有限公司 | 一种支持自然对话的语音处理系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5657380A (en) * | 1995-09-27 | 1997-08-12 | Sensory Circuits, Inc. | Interactive door answering and messaging device with speech synthesis |
US6246986B1 (en) * | 1998-12-31 | 2001-06-12 | At&T Corp. | User barge-in enablement in large vocabulary speech recognition systems |
CN1856821A (zh) * | 2003-07-31 | 2006-11-01 | 艾利森电话股份有限公司 | 允许声音打断的系统与方法 |
CN104679472A (zh) * | 2015-02-13 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 人机语音交互方法和装置 |
CN105070290A (zh) * | 2015-07-08 | 2015-11-18 | 苏州思必驰信息科技有限公司 | 人机语音交互方法及系统 |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN106303702A (zh) * | 2015-06-11 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 连接状态检测方法、装置和智能电视系统 |
CN108363557A (zh) * | 2018-02-02 | 2018-08-03 | 刘国华 | 人机交互方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8214219B2 (en) * | 2006-09-15 | 2012-07-03 | Volkswagen Of America, Inc. | Speech communications system for a vehicle and method of operating a speech communications system for a vehicle |
-
2018
- 2018-12-06 CN CN201811487110.XA patent/CN111292732B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5657380A (en) * | 1995-09-27 | 1997-08-12 | Sensory Circuits, Inc. | Interactive door answering and messaging device with speech synthesis |
US6246986B1 (en) * | 1998-12-31 | 2001-06-12 | At&T Corp. | User barge-in enablement in large vocabulary speech recognition systems |
CN1856821A (zh) * | 2003-07-31 | 2006-11-01 | 艾利森电话股份有限公司 | 允许声音打断的系统与方法 |
CN104679472A (zh) * | 2015-02-13 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 人机语音交互方法和装置 |
CN106303702A (zh) * | 2015-06-11 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 连接状态检测方法、装置和智能电视系统 |
CN105070290A (zh) * | 2015-07-08 | 2015-11-18 | 苏州思必驰信息科技有限公司 | 人机语音交互方法及系统 |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN108363557A (zh) * | 2018-02-02 | 2018-08-03 | 刘国华 | 人机交互方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111292732A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11984119B2 (en) | Electronic device and voice recognition method thereof | |
US9854439B2 (en) | Device and method for authenticating a user of a voice user interface and selectively managing incoming communications | |
US10831440B2 (en) | Coordinating input on multiple local devices | |
CN111292732B (zh) | 音频信息处理方法、装置、计算机设备和存储介质 | |
CN104361021B (zh) | 网页编码识别方法及装置 | |
US20160124564A1 (en) | Electronic device and method for automatically switching input modes of electronic device | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
CN107087075B (zh) | 一种基于屏幕指纹识别的提示方法及移动终端 | |
CN108108599B (zh) | 一种基于密码的解锁屏方法及通讯终端和相关介质产品 | |
CN105022945A (zh) | 一种基于人脸生物信息的解锁屏方法及移动设备 | |
KR20130082352A (ko) | 터치스크린을 구비하는 전자기기에서 화면을 확대하기 위한 장치 및 방법 | |
CN110968353A (zh) | 中央处理器的唤醒方法、装置、语音处理器以及用户设备 | |
US20170003982A1 (en) | Method for operating on web page of terminal and terminal | |
US20110068896A1 (en) | Communication device and method for sending a quick reply message | |
KR20170093491A (ko) | 음성 인식 방법 및 이를 사용하는 전자 장치 | |
CN111669633A (zh) | 遥控信号转触控操作方法、装置和显示设备 | |
WO2019018998A1 (zh) | 指纹识别的方法和装置 | |
CN114827068A (zh) | 消息发送方法、装置、电子设备及可读存储介质 | |
CN111970671B (zh) | 近场通信模块的控制方法、装置及电子设备 | |
WO2017032027A1 (zh) | 一种视频画面缩放方法及终端设备 | |
CN115981542A (zh) | 一种触摸屏的智能交互触摸控制方法、系统、设备及介质 | |
CN105159701A (zh) | 系统重置方法及终端 | |
CN105788590A (zh) | 语音识别方法及装置、移动终端 | |
CN114089868A (zh) | 触控操作方法、装置和电子设备 | |
CN104598009A (zh) | 屏幕按键控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |