CN108320751B - 一种语音交互方法、装置、设备和服务器 - Google Patents

一种语音交互方法、装置、设备和服务器 Download PDF

Info

Publication number
CN108320751B
CN108320751B CN201810097235.5A CN201810097235A CN108320751B CN 108320751 B CN108320751 B CN 108320751B CN 201810097235 A CN201810097235 A CN 201810097235A CN 108320751 B CN108320751 B CN 108320751B
Authority
CN
China
Prior art keywords
voice
command
mobile terminal
voice command
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810097235.5A
Other languages
English (en)
Other versions
CN108320751A (zh
Inventor
田超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810097235.5A priority Critical patent/CN108320751B/zh
Publication of CN108320751A publication Critical patent/CN108320751A/zh
Priority to US16/164,608 priority patent/US11587560B2/en
Application granted granted Critical
Publication of CN108320751B publication Critical patent/CN108320751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

本发明提出一种语音交互方法,应用于便携式设备,包括:通过至少两个麦克风采集语音信息;对所述语音信息进行处理,并且判断所述语音信息中是否包含有效语音命令;其中,所述有效语音命令为用户发出的针对移动终端的命令;以及在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端。本发明实施例中,将对语音信息的处理分配给外部的设备进行,降低了移动终端本身的电量消耗;并且,利用至少两个麦克风来采集语音信息,提高了语音采集的效率和质量。

Description

一种语音交互方法、装置、设备和服务器
技术领域
本发明涉及语音识别领域,并具体涉及一种语音交互方法、装置、设备和服务器。
背景技术
目前,由于语音识别技术的发展,移动终端、例如手机、平板电脑等常利用语音识别来对移动终端进行控制,例如拨打电话等。
但是,对于移动终端、特别是手机来说,经常开启语音识别会增加手机电量的消耗。而且,要想进行语音识别,需要长时间开启内置有语音识别功能的应用程序,对电量消耗较大。
此外,在利用语音对手机进行控制时,所采集到的语音信息中常包含无用的语音信息,例如在嘈杂的环境中,采集到的语音信息中常常包含除了用户的语音命令之外的人声,以及一些环境噪声。在这种情况下,即使用户没有发出语音命令,手机仍然会进行语音识别,由此增加了手机的计算量,进一步提高了耗电量。而且,由于移动终端只能设置少于两个的麦克风插入孔,语音信息的采集效率不高,很多时候需要用户将麦克风放置于嘴边,并且提高音量,才能使发出的语音命令被接收识别。
发明内容
本发明实施例提供一种语音交互方法、装置、设备和服务器,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种语音交互方法,应用于便携式设备,包括:
通过至少两个麦克风采集语音信息;
对所述语音信息进行处理,并且判断所述语音信息中是否包含有效语音命令;其中,所述有效语音命令为用户发出的针对移动终端的命令;以及
在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端。
结合第一方面,本发明在第一方面的第一种实施方式中,所述对所述语音信息进行处理,并且判断所述语音信息中是否包含有效语音命令,包括:
利用DSP过滤所述语音信息中的噪声,得到来自用户的语音信息;以及
判断所述来自用户的语音信息中是否包含有效语音命令。
结合第一方面,本发明在第一方面的第二种实施方式中,所述判断所述语音信息中是否包含有效语音命令包括:
判断所述语音信息中是否包含预设唤醒词,并且在所述语音信息中包含所述预设唤醒词时确定所述语音信息中包含有效语音命令。
结合第一方面,本发明在第一方面的第三种实施方式中,还包括:从所述移动终端接收同步播放的命令,并且根据所述命令进行播放操作。
第二方面,本发明实施例提供了一种语音交互方法,
结合第二方面,本发明在第二方面的第一实施方式中,应用于移动终端,包括:
从便携式移动设备接收有效语音命令;其中,所述有效语音命令为用户针对所述移动终端的语音命令;以及
根据所述有效语音命令,指示与所述有效语音命令相关的应用程序进行相应操作。
结合第二方面,本发明在第二方面的第一种实施方式中,所述根据所述有效语音命令,指示与所述有效语音命令相关的应用程序进行相应操作,包括:
判断所述有效语音命令是否与音频播放相关联;
在所述有效语音命令与音频播放相关联时,指示音频播放程序打开相关音频;以及
将同步播放的命令发送至便携式设备;其中,所述同步播放的命令指示所述便携式设备与所述音频播放程序同步播放音频。
第三方面,本发明实施例提供了一种语音交互装置,应用于便携式设备,包括:
语音采集模块,用于通过至少两个麦克风采集语音信息;
语音处理模块,用于对所述语音信息进行处理,并且判断所述语音信息中是否包含有效语音命令;其中,所述有效语音命令为用户发出的针对移动终端的命令;以及
语音传输模块,用于在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端。
第四方面,本发明实施例提供了一种语音交互装置,应用于移动终端,包括:
语音接收模块,用于从便携式移动设备接收有效语音命令;其中,所述有效语音命令为用户针对所述移动终端的语音命令;以及
操作控制模块,用于根据所述有效语音命令,指示与所述有效语音命令相关的应用程序进行相应操作。
第五方面,本发明实施例提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序;
通信接口,配置为使所述处理器和存储装置与外部设备进行通信;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述第一方面中的方法。
第六方面,本发明实施例提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序;
通信接口,配置为使所述处理器和存储装置与外部设备进行通信;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述第二方面中的方法。
第七方面,本发明实施例提供了一种计算机可读存储介质,用于存储所述语音交互装置所用的计算机软件指令,其包括用于执行上述第一方面中的语音交互方法为所述语音交互装置所涉及的程序。
第八方面,本发明实施例提供了一种计算机可读存储介质,用于存储所述语音交互装置所用的计算机软件指令,其包括用于执行上述第二方面中的语音交互方法为所述语音交互装置所涉及的程序。
上述技术方案中的另一个技术方案具有如下优点或有益效果:本发明实施例中,将对语音信息的处理分配给外部的设备进行,降低了移动终端本身的电量消耗;并且,利用至少两个麦克风来采集语音信息,提高了语音采集的效率和质量。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为根据本发明一个实施例的语音交互方法的流程图;
图2为根据本发明另一实施例的语音交互方法的流程图;
图3为根据本发明另一实施例的语音交互方法的流程图;
图4为根据本发明另一实施例的音频播放控制方法的流程图;
图5为根据本发明另一实施例的语音交互装置的结构示意图;
图6为根据本发明另一实施例的语音交互装置的结构示意图;
图7为根据本发明另一实施例的操作控制模块的结构示意图;
图8为根据本发明另一实施例的设备的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出了根据本发明一个实施例的语音交互方法100的流程图。如图1所示,语音交互方法100可以包括:
S110:通过至少两个麦克风采集语音信息;
目前,在移动终端中,由于硬件上的限制,很难实现用两个以上的麦克风来采集语音信息。这样,对语音信息的采集效率不高。为此,在本发明实施例中,方法100可以在便携式设备上运行,该便携式设备可以设置有至少两个麦克风。
本发明实施例中的便携式设备可以是紧凑的设备,例如可以作为领带夹、手环、胸针等被用户随身携带,既不占用太多空间,有时也可以起到装饰作用。
在本发明一个优选实施方式中,该便携式设备的外形可以是方形的,或者在方形的各角处呈现一定的弧度,使得外形更为圆滑,也便于携带。在一个替代实施方式中,便携式设备可以是多边形的柱体。实际上,本发明实施例中的便携式设备可以具有任何具有点对称性质的形状,这样可以便于牢固地放置于便于携带的外壳中。但是,可以理解的是,圆形也是可以的,只要增加几个固定装置,使得便携式设备上设置的麦克风不会容易地移位即可。
此外,为了进一步提高语音采集效率,可以在便携式设备的每个方向上都设置有两个麦克风孔,并且在其中一个方向上设置喇叭,这样可以充当播放设备。
S120:对所述语音信息进行处理,并且判断所述语音信息中是否包含有效语音命令;
现实中,很多时候,用户所处的环境中不是只有用户本人一个声源,而是存在多个声源。例如,如果用户处于公共交通工具中,麦克风所采集到的语音信息不止包含用户本人发出的语音信息,还可能包括公共交通工具报站的语音信息、周围乘客发出的语音信息、甚至公共交通工具的喇叭等发出的语音信息。此时,需要先对采集到的语音信息进行处理。
在本发明一个优选实施方式中,S120可以包括:
利用DSP过滤所述语音信息中的噪声,得到来自用户的语音信息;以及
判断所述来自用户的语音信息中是否包含有效语音命令。
DSP(Digital Signal Processor,数字信号处理器)是常用的信号处理装置,.特点是快速以及低功耗实现各种信号处理算法。本发明实施例中,利用DSP过滤所采集的语音信息中的噪声、即不属于用户的语音信息。具体的算法可以是任何一种信号处理的算法,在此不做具体限制。
可以理解的是,用户所发出的语音信息不一定是针对移动终端进行操作的。例如,用户可能仅是在与周围的人进行日常对话,而不是在与移动终端进行互动。因此,需要判断来自用户的语音信息中是否包含有效语音命令。本发明实施例中,有效语音命令可以为用户发出的针对移动终端的命令。
在本发明一个优选实施方式中,所述判断所述语音信息中是否包含有效语音命令包括:
判断所述语音信息中是否包含预设唤醒词,并且在所述语音信息中包含所述预设唤醒词时确定所述语音信息中包含有效语音命令。
本发明实施例中,唤醒词可以根据需要设置,可以是预先设置好的,也可以是用户自行设置。以唤醒词为“小度”为示例,对本发明实施例进行具体说明。例如,如果用户发出“小度,播放《星球大战7》”,则该语音命令会被确定为有效语音命令。
S130:在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端;
方法100中,通过至少两个麦克风采集语音信息,并且将语音处理分配给便携式设备进行,降低了移动终端的电耗。
图2示出了根据本发明另一实施例的语音交互方法200的流程图,方法200可以包括:
S210:通过至少两个麦克风采集语音信息;
S220:对所述语音信息进行处理,并且判断所述语音信息中是否包含有效语音命令;其中,所述有效语音命令为用户发出的针对移动终端的命令;以及
S230:在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端;
S210-S230与S110-S130相同,在此不赘述。
方法200还可以包括:
S240:从所述移动终端接收同步播放的命令,并且根据所述命令进行播放操作。
为了使便携式设备的功能更为丰富,可以将其作为一个播放设备,与移动终端同步播放音频。特别地,便携式设备和移动终端可以通过蓝牙通信。
图3示出了根据本发明另一实施例的语音交互方法300的流程图,方法300应用于移动终端,并且可以包括:
S310:从便携式移动设备接收有效语音命令;
本发明实施例中,有效语音命令为用户针对所述移动终端的语音命令,并且优选包含预设唤醒词。
S320:根据所述有效语音命令,指示与所述有效语音命令相关的应用程序进行相应操作;
本发明实施例中,方法300可以由单独的程序进行。该程序可以仅具有执行方法300这一种功能,所以需要使用的功耗非常低,也不需要占用太多移动终端的内存,并且可以在没有收到有效语音命令时关闭,进一步节省了移动终端的电耗。
以一个具体的示例来说明S320。如果有效语音命令为“小度,播放《西游降魔篇》”,该有效语音命令与视频播放相关联,则可以根据上述语音命令,指示视频播放程序对《西游降魔篇》进行播放。
优选地,如果有效语音命令涉及音频播放,可以使便携式设备同步播放音频,进一步降低移动终端的电耗。在这种情况下,如图4所示,S320可以包括:
S321:判断有效语音命令是否与音频播放相关联;
S322:在所述有效语音命令与音频播放相关联时,指示音频播放程序打开相关音频;
S323:将同步播放的命令发送至便携式设备;其中,所述同步播放的命令指示所述便携式设备与所述音频播放程序同步播放音频。
此时,由便携式设备进行音频的播放,移动终端中的音频播放程序只进行播放控制,而并不进行音频输出、即并不播放出声音。这样,实现了移动终端耗电量的进一步降低。
图5示出了根据本发明另一实施例的语音交互装置400的结构示意图,装置400可以应用于便携式设备,并且可以包括:
语音采集模块410,用于通过至少两个麦克风采集语音信息;
语音处理模块420,用于对所述语音信息进行处理,并且判断所述语音信息中是否包含有效语音命令;其中,所述有效语音命令为用户发出的针对移动终端的命令;以及
语音传输模块430,用于在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端。
特别地,语音处理模块420可以包括:
过滤单元,用于利用DSP过滤所述语音信息中的噪声,得到来自用户的语音信息;以及
判断单元,用于判断所述来自用户的语音信息中是否包含有效语音命令。
优选地,语音处理模块420可以进一步用于:对所述语音信息进行处理,判断所述语音信息中是否包含预设唤醒词,并且在所述语音信息中包含所述预设唤醒词时确定所述语音信息中包含有效语音命令。
特别地,装置400还可以包括:
播放模块,用于从所述移动终端接收同步播放的命令,并且根据所述命令进行播放操作。
图6示出了根据本发明另一实施例的语音交互装置500的结构示意图,装置500可以应用于移动终端,并且可以包括:
语音接收模块510,用于从便携式移动设备接收有效语音命令;其中,所述有效语音命令为用户针对所述移动终端的语音命令;以及
操作控制模块520,用于根据所述有效语音命令,指示与所述有效语音命令相关的应用程序进行相应操作。
特别地,如图7所示,操作控制模块520可以包括:
判断单元521,用于判断所述有效语音命令是否与音频播放相关联;
播放控制单元522,用于在所述有效语音命令与音频播放相关联时,指示音频播放程序打开相关音频;以及
命令发送单元523,用于将同步播放的命令发送至便携式设备;其中,所述同步播放的命令指示所述便携式设备与所述音频播放程序同步播放音频。
图8示出了根据本发明另一实施例的设备600的结构示意图。如图8所示,该设备包括:
一个或多个处理器610;
存储装置620,配置为存储一个或多个程序;
通信接口630,配置为使所述处理器610和存储装置620与外部设备进行通信;
当所述一个或多个程序被所述一个或多个处理器710执行时,使得所述一个或多个处理器610实现前述任一种语音交互方法。
根据本发明另一实施例,提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现前述任一种语音交互方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音交互方法,应用于便携式设备,其特征在于,包括:
通过所述便携式设备上设置的至少两个麦克风采集语音信息;
对所述语音信息进行处理,并且判断所述语音信息中是否包含预设唤醒词,在所述语音信息中包含所述预设唤醒词时确定所述语音信息中包含有效语音命令;其中,所述有效语音命令为用户发出的针对移动终端的命令;以及
在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端,以使所述移动终端在判定所述有效语音命令与音频播放相关联时,指示所述移动终端的音频播放程序打开与所述有效语音命令相关的音频,并向所述便携式设备发送播放命令;
根据所述播放命令播放所述音频。
2.根据权利要求1所述的方法,其特征在于,所述对所述语音信息进行处理,并且判断所述语音信息中是否包含有效语音命令,包括:
利用DSP过滤所述语音信息中的噪声,得到来自用户的语音信息;以及
判断所述来自用户的语音信息中是否包含有效语音命令。
3.一种语音交互方法,应用于移动终端,其特征在于,包括:
从便携式设备接收有效语音命令;其中,所述有效语音命令为用户针对所述移动终端的语音命令;判断所述有效语音命令是否与音频播放相关联;
在所述有效语音命令与音频播放相关联时,指示所述移动终端的音频播放程序打开与所述有效语音命令相关的音频;以及
将同步播放的命令发送至所述便携式设备;其中,所述同步播放的命令指示所述便携式设备与所述音频播放程序同步播放所述音频,并且所述移动终端不进行所述音频的播放。
4.一种语音交互装置,应用于便携式设备,其特征在于,包括:
语音采集模块,用于通过所述便携式设备上设置的至少两个麦克风采集语音信息;
语音处理模块,用于对所述语音信息进行处理,并且判断所述语音信息中是否包含预设唤醒词,在所述语音信息中包含所述预设唤醒词时确定所述语音信息中包含有效语音命令;其中,所述有效语音命令为用户发出的针对移动终端的命令;以及
语音传输模块,用于在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端,以使所述移动终端在判定所述有效语音命令与音频播放相关联时,指示所述移动终端的音频播放程序打开与所述有效语音命令相关的音频,并向所述便携式设备发送播放命令;
播放模块,用于根据所述播放命令播放所述音频。
5.根据权利要求4所述的装置,其特征在于,所述语音处理模块包括:
过滤单元,用于利用DSP过滤所述语音信息中的噪声,得到来自用户的语音信息;以及
判断单元,用于判断所述来自用户的语音信息中是否包含有效语音命令。
6.一种语音交互装置,应用于移动终端,其特征在于,包括:
语音接收模块,用于从便携式设备接收有效语音命令;其中,所述有效语音命令为用户针对所述移动终端的语音命令;以及
操作控制模块,用于根据所述有效语音命令,指示与所述有效语音命令相关的应用程序进行相应操作,
其中,所述操作控制模块包括:
判断单元,用于判断所述有效语音命令是否与音频播放相关联;
播放控制单元,用于在所述有效语音命令与音频播放相关联时,指示所述移动终端的音频播放程序打开与所述有效语音命令相关的音频;以及
命令发送单元,用于将同步播放的命令发送至便携式设备;其中,所述同步播放的命令指示所述便携式设备与所述音频播放程序同步播放所述音频,并且所述移动终端不进行所述音频的播放。
7.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序;
通信接口,配置为使所述处理器和所述存储装置与外部设备进行通信;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1或2所述的方法。
8.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序;
通信接口,配置为使所述处理器和所述存储装置与外部设备进行通信;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求3所述的方法。
9.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1或2所述的方法。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求3所述的方法。
CN201810097235.5A 2018-01-31 2018-01-31 一种语音交互方法、装置、设备和服务器 Active CN108320751B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810097235.5A CN108320751B (zh) 2018-01-31 2018-01-31 一种语音交互方法、装置、设备和服务器
US16/164,608 US11587560B2 (en) 2018-01-31 2018-10-18 Voice interaction method, device, apparatus and server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810097235.5A CN108320751B (zh) 2018-01-31 2018-01-31 一种语音交互方法、装置、设备和服务器

Publications (2)

Publication Number Publication Date
CN108320751A CN108320751A (zh) 2018-07-24
CN108320751B true CN108320751B (zh) 2021-12-10

Family

ID=62887726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810097235.5A Active CN108320751B (zh) 2018-01-31 2018-01-31 一种语音交互方法、装置、设备和服务器

Country Status (2)

Country Link
US (1) US11587560B2 (zh)
CN (1) CN108320751B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110286986A (zh) * 2019-06-27 2019-09-27 新华网(北京)科技有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN112307161B (zh) * 2020-02-26 2022-11-22 北京字节跳动网络技术有限公司 用于播放音频的方法和装置
CN111583920A (zh) * 2020-04-17 2020-08-25 上海中通吉网络技术有限公司 应用程序的语音控制方法、装置和设备
CN111722824B (zh) * 2020-05-29 2024-04-30 北京小米松果电子有限公司 语音控制方法、装置及计算机存储介质
CN113362820A (zh) * 2021-05-26 2021-09-07 北京奇艺世纪科技有限公司 语音信息响应方法、装置、电子设备和存储介质
CN113329356B (zh) * 2021-06-02 2022-06-03 中国工商银行股份有限公司 切换接听方式的方法、装置、电子设备及介质
CN113487261A (zh) * 2021-07-08 2021-10-08 歌尔光学科技有限公司 一种配送服务实现方法、装置及智能穿戴设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
CN104601838A (zh) * 2014-12-18 2015-05-06 深圳狗尾草智能科技有限公司 一种语音、无线控制智能家用电器操作系统
CN204499689U (zh) * 2015-02-12 2015-07-29 广州雅仕珠宝首饰有限公司 一种新型蓝牙戒指
CN204578621U (zh) * 2015-03-23 2015-08-19 钰太芯微电子科技(上海)有限公司 一种语音唤醒系统及移动终端
CN106535057A (zh) * 2016-12-07 2017-03-22 歌尔科技有限公司 一种主设备与从设备的运行切换方法和系统
CN106533511A (zh) * 2016-11-03 2017-03-22 深圳弘范网络科技有限公司 一种智能蓝牙通信方法和智能蓝牙系统
CN106782523A (zh) * 2016-11-16 2017-05-31 上海卓易云汇智能技术有限公司 语音功能的控制方法及装置
CN107277272A (zh) * 2017-07-25 2017-10-20 深圳市芯中芯科技有限公司 一种基于软件app的蓝牙设备语音交互方法及系统
CN107481721A (zh) * 2017-08-16 2017-12-15 北京百度网讯科技有限公司 用于可穿戴电子设备的语音交互方法和可穿戴电子设备

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8498425B2 (en) * 2008-08-13 2013-07-30 Onvocal Inc Wearable headset with self-contained vocal feedback and vocal command
US20100330908A1 (en) * 2009-06-25 2010-12-30 Blueant Wireless Pty Limited Telecommunications device with voice-controlled functions
CN201667653U (zh) 2010-01-25 2010-12-08 北京森博克智能科技有限公司 具备语音传输和语音识别触发功能的车用无线蓝牙装置
CN103944598A (zh) * 2013-01-23 2014-07-23 深圳市亿思达显示科技有限公司 可视语音控制器、无线通讯系统及其通讯方法
CN103401984A (zh) * 2013-07-30 2013-11-20 无锡中星微电子有限公司 蓝牙耳机及通讯装置
US9167333B2 (en) * 2013-10-18 2015-10-20 Plantronics, Inc. Headset dictation mode
US9400634B2 (en) * 2013-10-28 2016-07-26 Google Technology Holdings LLC Systems and methods for communicating notifications and textual data associated with applications
US9325824B2 (en) * 2014-01-02 2016-04-26 Signal Essence, LLC Adjustable holder for portable communication device with sound enhancement
US9576577B2 (en) * 2014-05-23 2017-02-21 Dolbey & Company, Inc. Systems and methods for transcription transfer
CN104065882A (zh) * 2014-06-23 2014-09-24 惠州Tcl移动通信有限公司 一种基于智能穿戴设备的移动终端拍照控制方法及其系统
CN104318924A (zh) * 2014-11-12 2015-01-28 沈阳美行科技有限公司 一种实现语音识别功能的方法
CN105575039A (zh) * 2015-07-13 2016-05-11 宇龙计算机通信科技(深圳)有限公司 一种语音求助方法及装置
CN105391607A (zh) * 2015-11-30 2016-03-09 深圳市中联云广科技有限公司 一种基于智能穿戴设备的智能家居系统
US20180063308A1 (en) * 2016-02-23 2018-03-01 Bioworld Merchandising System and Method for Voice Recognition
CN106356060B (zh) * 2016-08-23 2020-08-14 北京小米移动软件有限公司 语音通信方法及装置
CN106231465A (zh) * 2016-08-29 2016-12-14 苏州倍声声学技术有限公司 一种智能骨传导耳机
CN106790971A (zh) * 2016-11-17 2017-05-31 北京中科汇联科技股份有限公司 一种智能客服耳机
CN106910500B (zh) * 2016-12-23 2020-04-17 北京小鸟听听科技有限公司 对带麦克风阵列的设备进行语音控制的方法及设备
US10339927B2 (en) * 2017-02-16 2019-07-02 GM Global Technology Operations LLC Vehicle control systems and methods for multi-intent queries input by voice
US10360916B2 (en) * 2017-02-22 2019-07-23 Plantronics, Inc. Enhanced voiceprint authentication
CN206640748U (zh) * 2017-03-22 2017-11-14 北京金锐德路科技有限公司 脖戴式语音交互智能设备
CN107403621B (zh) 2017-08-25 2020-06-30 深圳市沃特沃德股份有限公司 语音唤醒装置及方法
US10706868B2 (en) * 2017-09-06 2020-07-07 Realwear, Inc. Multi-mode noise cancellation for voice detection
CN107394865B (zh) 2017-09-07 2023-04-11 深圳市微校互联科技有限公司 一种内置无线接收充电及语音控制的智能开关
US10540970B2 (en) * 2017-12-12 2020-01-21 Amazon Technologies, Inc. Architectures and topologies for vehicle-based, voice-controlled devices
US10965391B1 (en) * 2018-01-29 2021-03-30 Amazon Technologies, Inc. Content streaming with bi-directional communication

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
CN104601838A (zh) * 2014-12-18 2015-05-06 深圳狗尾草智能科技有限公司 一种语音、无线控制智能家用电器操作系统
CN204499689U (zh) * 2015-02-12 2015-07-29 广州雅仕珠宝首饰有限公司 一种新型蓝牙戒指
CN204578621U (zh) * 2015-03-23 2015-08-19 钰太芯微电子科技(上海)有限公司 一种语音唤醒系统及移动终端
CN106533511A (zh) * 2016-11-03 2017-03-22 深圳弘范网络科技有限公司 一种智能蓝牙通信方法和智能蓝牙系统
CN106782523A (zh) * 2016-11-16 2017-05-31 上海卓易云汇智能技术有限公司 语音功能的控制方法及装置
CN106535057A (zh) * 2016-12-07 2017-03-22 歌尔科技有限公司 一种主设备与从设备的运行切换方法和系统
CN107277272A (zh) * 2017-07-25 2017-10-20 深圳市芯中芯科技有限公司 一种基于软件app的蓝牙设备语音交互方法及系统
CN107481721A (zh) * 2017-08-16 2017-12-15 北京百度网讯科技有限公司 用于可穿戴电子设备的语音交互方法和可穿戴电子设备

Also Published As

Publication number Publication date
CN108320751A (zh) 2018-07-24
US11587560B2 (en) 2023-02-21
US20190237070A1 (en) 2019-08-01

Similar Documents

Publication Publication Date Title
CN108320751B (zh) 一种语音交互方法、装置、设备和服务器
CN110364151B (zh) 一种语音唤醒的方法和电子设备
CN112397062A (zh) 语音交互方法、装置、终端及存储介质
CN109087660A (zh) 用于回声消除的方法、装置、设备以及计算机可读存储介质
CN109525012B (zh) 充电装置、充电控制方法、充电控制系统及存储介质
US11200899B2 (en) Voice processing method, apparatus and device
CN111599358A (zh) 语音交互方法及电子设备
CN110931000B (zh) 语音识别的方法和装置
CN113571053A (zh) 语音唤醒方法和设备
CN109686372B (zh) 资源播放控制方法和装置
CN111613213A (zh) 音频分类的方法、装置、设备以及存储介质
CN116795753A (zh) 音频数据的传输处理的方法及电子设备
CN111724783B (zh) 智能设备的唤醒方法、装置、智能设备及介质
CN114360546A (zh) 电子设备及其唤醒方法
CN112259076A (zh) 语音交互方法、装置、电子设备及计算机可读存储介质
CN114694646A (zh) 一种语音交互处理方法及相关装置
CN114520002A (zh) 一种处理语音的方法及电子设备
CN111081283A (zh) 一种音乐播放方法、装置、存储介质及终端设备
CN115499744A (zh) 耳机降噪方法及装置、计算机可读存储介质及耳机
CN111091827B (zh) 语音导览方法及装置、终端和计算机可读存储介质
CN114120987B (zh) 一种语音唤醒方法、电子设备及芯片系统
CN113593563A (zh) 语音处理方法、遥控器及系统
CN115544296A (zh) 音频数据的存储方法及其相关设备
CN114822525A (zh) 语音控制方法和电子设备
CN113162837A (zh) 语音消息的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant