CN113782015A - 一种语音交互的方法和装置 - Google Patents

一种语音交互的方法和装置 Download PDF

Info

Publication number
CN113782015A
CN113782015A CN202110014266.1A CN202110014266A CN113782015A CN 113782015 A CN113782015 A CN 113782015A CN 202110014266 A CN202110014266 A CN 202110014266A CN 113782015 A CN113782015 A CN 113782015A
Authority
CN
China
Prior art keywords
audio data
terminal
original
audio
receiving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110014266.1A
Other languages
English (en)
Inventor
吴晓洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110014266.1A priority Critical patent/CN113782015A/zh
Publication of CN113782015A publication Critical patent/CN113782015A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/10Connection setup
    • H04W76/14Direct-mode setup
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开了一种为语音交互的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:通过广播消息发现第二终端,并与所述第二终端建立连接;接收到唤醒指令后,进行关于接收音频的初始化操作,并通知所述第二终端所述初始化操作完成;利用所建立的连接接收从所述第二终端发送的第一音频数据,所述第一音频数据是由所述第二终端对所采集到的原始第一音频数据进行编码后的音频数据;获得响应于所述第一音频数据的原始第二音频数据,对所述原始第二音频数据进行所述编码,将编码后得到的第二音频数据发送给所述第二终端,以由所述第二终端进行语音播放。该实施方式不但能够实现用户与蓝牙音箱的语言交互,也能够节省蓝牙音箱的电量。

Description

一种语音交互的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音交互的方法和装置。
背景技术
目前蓝牙音箱广泛使用的是经典蓝牙方案,也即,用户通过在其手机上的蓝牙相关界面中搜索蓝牙音箱,进而实现手机与蓝牙音箱的配对;配对成功后,用户可以使用蓝牙音箱进行音乐播放等操作。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:通过经典蓝牙方案尝试令蓝牙音箱进行语音播放,可能产生android手机版本、蓝牙协议等引发的兼容性问题,且经典蓝牙方案中音箱耗电量比较大,对于采用便捷充电方式的蓝牙音箱来说,容易出现电量消耗过快的问题。
发明内容
有鉴于此,本发明实施例提供一种为语音交互商户的方法和装置,不但能够实现用户与蓝牙音箱的语言交互,也能够节省蓝牙音箱的电量;另一方面,为节省电量虽然蓝牙音箱和手机之间的数据传输量被减小,但并不影响服务端进行语音识别,也即保证了语音识别的质量。
为实现上述目的,根据本发明实施例的一个方面,提供了一种语音交互的方法,包括:通过广播消息发现第二终端,并与所述第二终端建立连接;接收到唤醒指令后,进行关于接收音频的初始化操作,并通知所述第二终端所述初始化操作完成;利用所建立的连接接收从所述第二终端发送的第一音频数据,所述第一音频数据是由所述第二终端对所采集到的原始第一音频数据进行编码后的音频数据;获得响应于所述第一音频数据的原始第二音频数据,对所述原始第二音频数据进行所述编码,将编码后得到的第二音频数据发送给所述第二终端,以由所述第二终端进行语音播放。
可选地,用于语音交互的方法,还包括:所述连接是短距离无线通信连接,所述广播消息是所述短距离无线通信连接对应的广播消息。
可选地,用于语音交互的方法,还包括:所述短距离无线通信连接是低功耗蓝牙连接。
可选地,用于语音交互的方法,还包括:所接收到的唤醒指令是由用户在所述第二终端上进行操作而触发的。
可选地,用于语音交互的方法,还包括:所接收到的唤醒指令是由用户在第一终端上进行操作而触发的。
可选地,用于语音交互的方法,还包括:所述编码为有损声音编码。
可选地,用于语音交互的方法,还包括:利用所建立的连接接收所述第二终端发送的第一音频数据之后,对所述第一音频数据进行与所述编码相对应的解码;将解码后的第一音频数据发送给服务端。
可选地,用于语音交互的方法,还包括:从所述服务端接收到响应于解码后的第一音频数据的应答数据,将所述应当数据转换为所述原始第二音频数据;或者从所述服务端接收响应于解码后的第一音频数据的所述原始第二音频数据。
为实现上述目的,根据本发明实施例的第二方面,提供了一种语音交互的方法,包括:发送广播消息,在被第一终端发现后,与所述第一终端建立连接;接收到所述第一终端的初始化操作已完成的通知后,采集原始第一音频数据,并对所采集到的原始第一音频数据进行编码,以得到第一音频数据;将所述第一音频数据发送给所述第一终端,接收响应于所述第一音频数据的第二音频数据,以进行语音播放。
可选地,用于语音交互的方法,还包括:按照预定义时间间隔按采集所述原始第一音频数据,并对所采集到的原始第一音频数据进行编码,以得到第一音频数据;基于预定义数目的第一音频数据,生成所述第一音频数据帧;将所述第一音频数据帧发送给所述第一终端。
为实现上述目的,根据本发明实施例的第三方面,提供了一种用于语音交互的装置,包括:连接模块,用于扫描广播消息,通过所述广播消息发现第二终端,并与所述第二终端建立连接;初始化模块,用于接收到唤醒指令后,进行关于接收音频的初始化操作,并通知所述第二终端所述初始化操作完成;语音转发模块,用于利用所建立的连接接收从所述第二终端发送的第一音频数据,所述第一音频数据是由所述第二终端对所采集到的原始第一音频数据进行编码后的音频数据;获得响应于所述第一音频数据的原始第二音频数据,对所述原始第二音频数据进行所述编码,将编码后得到的第二音频数据发送给所述第二终端,以由所述第二终端进行语音播放。
为实现上述目的,根据本发明实施例的第四方面,提供了一种用于语音交互的装置,包括通信组件,用于发送广播消息,与第一终端建立连接,基于所建立的连续向所述第一终端发送第一音频数据,以及从所述第一终端接收第二音频属性;音频采集组件,用于在所述音箱接收到所述第一终端的初始化操作已完成的通知后,采集原始第一音频数据;编解码组件,用于对所采集到的原始第一音频数据进行编码,以得到第一音频数据;音频播放组件,用于在从所述第一终端接收到响应于所述第一音频数据的第二音频数据后,进行语音播放。
为实现上述目的,根据本发明实施例的第五方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述用于语音交互的方法中任一所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用在第一终端和第二终端之间设置独特的编解码流程的技术手段,所以不但能够实现用户与蓝牙音箱的语言交互,也能够节省蓝牙音箱的电量;另一方面,为节省电量虽然蓝牙音箱和手机之间的数据传输量被减小,但并不影响服务端进行语音识别,也即保证了语音识别的质量。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1示出了根据本发明实施例的第一终端、第二终端以及服务端之间的通信连接关系;
图2是根据本发明实施例的第一终端、第二终端以及服务端之间的信息交互流程的示意图;
图3是了根据本发明实施例的对采集到的原始音频数据进行编码的主要流程的示意图;
图4是根据本发明实施例的应用于第一终端的主要流程的示意图;
图5是根据本发明实施例的应用于第二终端的主要流程的示意图;
图6是根据本发明实施例的用于语音交互的装置的主要模块的示意图;
图7是根据本发明实施例的用于语音交互的音箱的主要组件的示意图;
图8是本发明实施例可以应用于其中的示例性系统架构图;
图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
通常,在智能家居环境下,用户可以通过语音命令音箱进行操作,例如,播放音乐,进行网上购物,查询天气预报等等。为实现这些应用场景,需要在音箱与远端服务器交互大量数据,但是这对于对电量比较敏感的音箱而言,或者对于仅具有短距离通信能力的音箱而言,构成了挑战。
图1示出了根据本发明实施例的第一终端、第二终端以及服务端之间的通信连接关系。在图1中,第一终端为安装有可与音箱通信的app的终端,例如手机、pad、笔记本电脑等;第二终端为可采集语音并可进行语音播放的设备,例如带屏音箱、不带屏音箱等。如图1所示,第一终端与第二终端之间的虚线连接表示第一终端与第二终端之间基于短距离无线通信协议进行连接,例如,经典版蓝牙、低功耗版蓝牙、ZigBee、近场通信(NFC)等,本发明不限于此。第一终端与服务端之间的连接表示第一终端通过公共互联网协议与服务端进行通信。可以理解的是,以智能手机为代表的第一终端与以蓝牙音箱为代表的第二终端,通常处于同一场所中,例如,同处于家居环境中,用户可通过向蓝牙音箱说出语音命令,而使得蓝牙音箱进行播放音乐、操控其他家居设备、向远端购物网站查询商品等操作。
图2是根据本发明实施例的第一终端、第二终端以及服务端之间的信息交互流程的示意图。
如图2所示,在S201中,以蓝牙音箱为代表的第二终端发送无特定接收端(非定向)或者指定了特定接收端(定向)的广播消息。
在S202中,以智能终端为代表的第一终端对扫描到的广播信息进行解析,例如,获知蓝牙音箱的地址,并与蓝牙音箱建立通信连接——例如,低功耗蓝牙连接。其中,第一终端和第二终端之间的连接是短距离无线通信连接,S201中的广播消息是该短距离无线通信连接对应的广播消息。在一个优选实施例中,该短距离无线通信连接是低功耗蓝牙连接。
在S203中,如果用户触碰了(例如,按下)第二终端上的按键后,第二终端将唤醒指令发送给第一终端。
在S204中,第一终端进行初始化操作,例如与服务端建立连接,包括但不限于完成认证、鉴权、媒体传输的端口协商等等;此外,第一终端自身也准备好接收将来自第二终端的音频数据,例如初始化解码器,创建用于存储音频数据的空间等等。
在S205中,第一终端完成各项初始化工作后,通知第二终端开始采集音频。在一个未示出的实施例中,用户触碰了第一终端上的收音选项——例如,点击了安装于智能终端的app上的“收音”按钮,则第一终端也将进行上述初始化操作,并且在完成初始化操作后,将通知第二终端开始采集音频。也即,第一终端所接收到的唤醒指令可以是由用户在所述第二终端上进行操作而触发的,也可以是由用户在第一终端上进行操作而触发的。
在S206中,第二终端收到采集音频的指令后,采集原始第一音频数据,并对所采集到的原始第一音频数据进行编码,以得到第一音频数据,从而实现压缩原始第一音频数据的效果。在一个实施例中,该编码是有损声音编码(例如,OPUS)。
在S207中,第二终端将第一音频数据发送给第一终端。
在S208中,第一终端接收第二终端发送的第一音频数据之后,对第一音频数据进行与上述编码相对应的解码。
在S209中,第一终端将解码后的第一音频数据发送给服务端。值得注意的是,解码后的第一音频数据可以完全与原始第一音频数据相同,也可以是与原始第一音频数据的误差处于可接受误差范围的音频数据,也即解码后的第一音频数据与原始第一音频数据高度相关。在一个实施例中,第一终端可对解码后的第一音频数据,进行再次(第二次)编码,该第二次编码可以与对原始第一音频数据的编码不同,例如,该第二次编码可以为无损编码,其主要目的在于数据加密。
在S210中,第一终端从服务端接收到响应于解码后的第一音频数据的原始第二音频数据或者应答数据。在一个实施例中,服务端可以在对收到的音频数据进行语音识别后,确定应答文本(应对数据),并将该应答文本发送给第一终端,由第一终端完成文本至语音的转换,从而在第一终端侧生成对应于该应答文本的原始第二音频数据。在另一个实施例中,服务端可以对收到的音频数据进行语音识别并确定应答文本后,完成文本至语音的转换,并将得到的原始第二音频数据发送个第一终端,也即无需第一终端对文本数据进行处理以生成音频数据。
在S211中,第一终端对原始第二音频数据进行编码,以得到第二音频数据;通常,该编码与对原始第一音频数据的编码相同,同样是有损编码,以实现对原始第二音频数据的压缩。
在S212中,第一终端将第二音频数据发送给第二终端。在S213中,第二终端对第二音频数据进行与上述编码相对应的解码,与上述类似地,解码后的第二音频数据可以完全与原始第二音频数据相同,也可以是与原始第二音频数据的误差处于可接受误差范围的音频数据,也即解码后的第二音频数据与原始第二音频数据高度相关;在完成解码后,第二终端根据解码后的第二音频数据进行语音播放。
由于第二音频数据源自于原始第二音频数据,原始第二音频数据是响应于解码后的第一音频数据的,而解码后的第一音频数据与原始第一音频数据高度相关,所以第二音频数据是对应于原始第一音频数据的数据,也即,上述流程实现了基于智能音箱的语音交互。
图3示出了根据本发明实施例的对采集到的原始音频数据进行编码的主要流程的示意图。由于第二终端的成本、电量等限制,诸如低功耗蓝牙音箱的第二终端每次发送或接收的数据量有限,并且考虑到该音箱的物理器件(例如,芯片)质量有限,因而需要设计良好的音频数据编辑码过程,以尽量不影响乃至提升音频数据的编辑码质量,避免信息量的过多减少。图3中的流程对应于图2中的S206-S208。
在S301中,第二终端按照预定义时间间隔按采集原始第一音频数据。例如,第二终端按20ms的时间间隔采集周围环境中的音频。
在S302中,第二终端对所采集到的原始第一音频数据进行编码,以得到第一音频数据。依然以上述示例进行解释,第二终端对所采集到的20ms时间间隔内的音频数据进行编码,得到对应的第一音频数据。
在S303中,第二终端基于预定义数目的第一音频数据(包),生成所述第一音频数据帧。具体地,当积累了三次编码的音频数据(第一音频数据)后——也即,积累了60ms的第一音频数据后,将这些第一音频数据组成数据帧。
在S304中,第二终端将所述第一音频数据帧发送给所述第一终端。
在S305中,第一终端将接收到的第一音频数据帧拆分为预定义数目的第一音频数据。具体地,第一终端将第一音频数据分成三段,每段对应20ms的原始第一音频数据。
在S306中,第一终端对预定义数目的第一音频数据分别进行解码,以得到原始第一音频数据。具体地,第一终端对拆分后的三段第一音频数据分别进行解码,并解码后的三段数据发送给服务端,或者将解码后的若干段数据组装成另一数据帧发送给服务端。
在上述示例中,按预定义间隔采集音频数据,并将一个音频数据帧中至多包含预定义数目的音频数据包,将使得第二终端和第一终端之间传输的数据量可控,小于预先设置的数据量阈值。
在对应于图2和图3所示流程的一个具体示例中,当用户打开其智能终端(例如,手机,pad,笔记本电脑等)上可与蓝牙音箱通信的app时,该智能终端开始扫描周边的低功耗蓝牙设备,当通过扫描到的广播消息(例如,基于广播头)识别到蓝牙音箱时,智能终端与蓝牙音箱建立通信连接。随后,在用户按下或触摸蓝牙音箱上的收音按键后,蓝牙音箱向app发送唤醒指令。该app收到唤醒指令后,进行初始化工作,例如,与app对应的服务端建立通信连接,在智能终端上创建用于存储音频数据的空间;在初始化工作完成后,app向蓝牙音箱发送指令以表示准备好收音环境,并指示蓝牙信息采集音频(也被称为“收音”)。蓝牙音箱在实时收音的过程中,将采集到的音频数据进行压缩编码——例如,以16倍的压缩比,对1s内的录音数据进行编码。并将压缩编码后的音频数据发送给app,app实时对接收到的音频数据进行解压缩,并将解压缩后的音频数据发送给上述服务端。服务端接收到音频数据后,进行语音识别,优选地,还进行语音识别结果的分类——例如确定该音频数据涉及查询商品的信息,或者该音频数据涉及控制其他家居设备,随后服务端将基于语音识别结果的应答数据,或者由该应答数据转换而来的音频数据(原始第二音频数据)发送给智能终端。该智能终端对原始第二音频数据进行编码(压缩)后,发送给蓝牙音箱。蓝牙音箱对于接受到的音频数据进行解(解压缩),以进行语音播放。由此,实现了蓝牙音箱与用户的语音交互。
图4是根据本发明实施例的应用于第一终端的主要流程的示意图。
在S401中,通过广播消息发现第二终端,并与所述第二终端建立连接;其中,所述连接是短距离无线通信连接,所述广播消息是所述短距离无线通信连接对应的广播消息;进一步,所述短距离无线通信连接是低功耗蓝牙连接。
在S402中,接收到唤醒指令后,进行关于接收音频的初始化操作,并通知所述第二终端所述初始化操作完成;其中,所接收到的唤醒指令可以是由用户在所述第二终端上进行操作(例如,按下“收音”按钮)而触发的,也可以是由用户在第一终端上进行操作(例如,点击“收音”选项)而触发的。
在S403中,利用所建立的连接接收从所述第二终端发送的第一音频数据,所述第一音频数据是由所述第二终端对所采集到的原始第一音频数据进行编码后的音频数据;在一个实施例中,所述编码为有损声音编码,从而实现了压缩音频数据包的目的
在S404中,获得响应于所述第一音频数据的原始第二音频数据,对所述原始第二音频数据进行所述编码,将编码后得到的第二音频数据发送给所述第二终端,以由所述第二终端进行语音播放。第一终端利用所建立的连接接收所述第二终端发送的第一音频数据之后,对所述第一音频数据进行与所述编码相对应的解码,然后将解码后的第一音频数据发送给服务端。进一步,第一终端从所述服务端接收到响应于解码后的第一音频数据的应答数据,并将所述应当数据转换为所述原始第二音频数据;或者从所述服务端接收响应于解码后的第一音频数据的所述原始第二音频数据,也即无需第一终端完成文本至语音的转换工作。
图5是根据本发明实施例的应用于第二终端的主要流程的示意图。
在S501中,发送广播消息,在被第一终端发现后,与所述第一终端建立连接。
在S502中,接收到所述第一终端的初始化操作已完成的通知后,采集原始第一音频数据,并对所采集到的原始第一音频数据进行编码,以得到第一音频数据。进一步,第二终端按照预定义时间间隔按采集所述原始第一音频数据,并对所采集到的原始第一音频数据进行编码,以得到第一音频数据,然后基于预定义数目的第一音频数据,生成所述第一音频数据帧。随后,第二终端将所述第一音频数据帧发送给所述第一终端
在S503中,将所述第一音频数据发送给所述第一终端,接收响应于所述第一音频数据的第二音频数据,以进行语音播放。
图6是根据本发明实施例的用于语音交互的装置的主要模块的示意图。该装置包括连接模块、初始化模块以及语音转化模块。
其中,连接模块,用于扫描广播消息,通过所述广播消息发现第二终端,并与所述第二终端建立连接;初始化模块,用于接收到唤醒指令后,进行关于接收音频的初始化操作,并通知所述第二终端所述初始化操作完成;语音转发模块,用于利用所建立的连接接收从所述第二终端发送的第一音频数据,所述第一音频数据是由所述第二终端对所采集到的原始第一音频数据进行编码后的音频数据;获得响应于所述第一音频数据的原始第二音频数据,对所述原始第二音频数据进行所述编码,将编码后得到的第二音频数据发送给所述第二终端,以由所述第二终端进行语音播放。
图7是根据本发明实施例的用于语音交互的音箱的主要组件的示意图。该音箱包括通信组件、音频采集组件、编解码组件以及音频播放组件。
其中,通信组件,用于发送广播消息,与第一终端建立连接,基于所建立的连续向所述第一终端发送第一音频数据,以及从所述第一终端接收第二音频属性;音频采集组件,用于在所述音箱接收到所述第一终端的初始化操作已完成的通知后,采集原始第一音频数据;编解码组件,用于对所采集到的原始第一音频数据进行编码,以得到第一音频数据;音频播放组件,用于在从所述第一终端接收到响应于所述第一音频数据的第二音频数据后,进行语音播放。
图8是本发明实施例可以应用于其中的示例性系统架构图。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803可以是用于语音交互的音箱,以及与音箱进行通信连接的智能终端,具体地,终端设备801、802、803具有编解码功能。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对从终端设备801、802、803接收到的音频数据进行语音识别并给出应答的后台服务器(仅为示例)。
需要说明的是,本发明实施例所提供的语音交互方法一般由终端设备801、802、803执行,相应地,语音交互的装置一般设置于终端设备801、802、803中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图9,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统900的结构示意图。图9示出的终端设备或服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元(or“模块”)可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元(or“模块”)也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元(or“模块”)、数据获取单元、模型构建单元和模型求解单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,数据获取单元还可以被描述为“向所连接的服务端发送参数的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:通过广播消息发现第二终端,并与所述第二终端建立连接;接收到唤醒指令后,进行关于接收音频的初始化操作,并通知所述第二终端所述初始化操作完成;利用所建立的连接接收从所述第二终端发送的第一音频数据,所述第一音频数据是由所述第二终端对所采集到的原始第一音频数据进行编码后的音频数据;获得响应于所述第一音频数据的原始第二音频数据,对所述原始第二音频数据进行所述编码,将编码后得到的第二音频数据发送给所述第二终端,以由所述第二终端进行语音播放。或者,该设备包括:发送广播消息,在被第一终端发现后,与所述第一终端建立连接;接收到所述第一终端的初始化操作已完成的通知后,采集原始第一音频数据,并对所采集到的原始第一音频数据进行编码,以得到第一音频数据;将所述第一音频数据发送给所述第一终端,接收响应于所述第一音频数据的第二音频数据,以进行语音播放
根据本发明实施例的技术方案,因为采用在第一终端和第二终端之间设置独特的编解码流程的技术手段,所以不但能够实现用户与蓝牙音箱的语言交互,也能够节省蓝牙音箱的电量;另一方面,为节省电量虽然蓝牙音箱和手机之间的数据传输量被减小,但并不影响服务端进行语音识别,也即保证了语音识别的质量。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (16)

1.一种语音交互的方法,其特征在于,包括:
通过广播消息发现第二终端,并与所述第二终端建立连接;
接收到唤醒指令后,进行关于接收音频的初始化操作,并通知所述第二终端所述初始化操作完成;
利用所建立的连接接收从所述第二终端发送的第一音频数据,所述第一音频数据是由所述第二终端对所采集到的原始第一音频数据进行编码后的音频数据;
获得响应于所述第一音频数据的原始第二音频数据,对所述原始第二音频数据进行所述编码,将编码后得到的第二音频数据发送给所述第二终端,以由所述第二终端进行语音播放。
2.根据权利要求1所述的方法,其特征在于,还包括:
所述连接是短距离无线通信连接,所述广播消息是所述短距离无线通信连接对应的广播消息。
3.根据权利要求2所述的方法,其特征在于,还包括:
所述短距离无线通信连接是低功耗蓝牙连接。
4.根据权利要求1所述的方法,其特征在于,还包括:
所接收到的唤醒指令是由用户在所述第二终端上进行操作而触发的。
5.根据权利要求1所述的方法,其特征在于,还包括:
所接收到的唤醒指令是由用户在第一终端上进行操作而触发的。
6.根据权利要求1所述的方法,其特征在于,还包括:
所述编码为有损声音编码。
7.根据权利要求1所述的方法,其特征在于,还包括:
利用所建立的连接接收所述第二终端发送的第一音频数据之后,对所述第一音频数据进行与所述编码相对应的解码;
将解码后的第一音频数据发送给服务端。
8.根据权利要求7所述的方法,其特征在于,所述获得响应于所述第一音频数据的原始第二音频数据,包括:
从所述服务端接收到响应于解码后的第一音频数据的应答数据,将所述应当数据转换为所述原始第二音频数据;或者
从所述服务端接收响应于解码后的第一音频数据的所述原始第二音频数据。
9.一种语音交互的方法,其特征在于,包括:
发送广播消息,在被第一终端发现后,与所述第一终端建立连接;
接收到所述第一终端的初始化操作已完成的通知后,采集原始第一音频数据,并对所采集到的原始第一音频数据进行编码,以得到第一音频数据;
将所述第一音频数据发送给所述第一终端,接收响应于所述第一音频数据的第二音频数据,以进行语音播放。
10.根据权利要求9所述的方法,其特征在于,
采集原始第一音频数据,并对所采集到的原始第一音频数据进行编码,以得到第一音频数据,包括:
按照预定义时间间隔按采集所述原始第一音频数据,并对所采集到的原始第一音频数据进行编码,以得到第一音频数据;
基于预定义数目的第一音频数据,生成所述第一音频数据帧;
将所述第一音频数据发送给所述第一终端,包括:
将所述第一音频数据帧发送给所述第一终端。
11.一种用于语音交互的装置,其特征在于,包括:
连接模块,用于扫描广播消息,通过所述广播消息发现第二终端,并与所述第二终端建立连接;
初始化模块,用于接收到唤醒指令后,进行关于接收音频的初始化操作,并通知所述第二终端所述初始化操作完成;
语音转发模块,用于利用所建立的连接接收从所述第二终端发送的第一音频数据,所述第一音频数据是由所述第二终端对所采集到的原始第一音频数据进行编码后的音频数据;获得响应于所述第一音频数据的原始第二音频数据,对所述原始第二音频数据进行所述编码,将编码后得到的第二音频数据发送给所述第二终端,以由所述第二终端进行语音播放。
12.一种用于语音交互的音箱,其特征在于,包括:
通信组件,用于发送广播消息,与第一终端建立连接,基于所建立的连续向所述第一终端发送第一音频数据,以及从所述第一终端接收第二音频属性;
音频采集组件,用于在所述音箱接收到所述第一终端的初始化操作已完成的通知后,采集原始第一音频数据;
编解码组件,用于对所采集到的原始第一音频数据进行编码,以得到第一音频数据;
音频播放组件,用于在从所述第一终端接收到响应于所述第一音频数据的第二音频数据后,进行语音播放。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求9-10中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求9-10中任一所述的方法。
CN202110014266.1A 2021-01-06 2021-01-06 一种语音交互的方法和装置 Pending CN113782015A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110014266.1A CN113782015A (zh) 2021-01-06 2021-01-06 一种语音交互的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110014266.1A CN113782015A (zh) 2021-01-06 2021-01-06 一种语音交互的方法和装置

Publications (1)

Publication Number Publication Date
CN113782015A true CN113782015A (zh) 2021-12-10

Family

ID=78835414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110014266.1A Pending CN113782015A (zh) 2021-01-06 2021-01-06 一种语音交互的方法和装置

Country Status (1)

Country Link
CN (1) CN113782015A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212465A1 (en) * 2002-05-09 2003-11-13 Howard John K. Method and apparatus for communicating between a portable device and a server
CN108428452A (zh) * 2018-03-14 2018-08-21 百度在线网络技术(北京)有限公司 终端支架和远场语音交互系统
CN108738006A (zh) * 2018-05-31 2018-11-02 出门问问信息科技有限公司 基于蓝牙的数据传输方法及装置
US20180329896A1 (en) * 2017-05-11 2018-11-15 Waverly Labs Inc. Smart sound devices and language translation system
CN109785841A (zh) * 2019-03-19 2019-05-21 厦门市思芯微科技有限公司 一种蓝牙智能设备语音交互系统及方法
CN109995475A (zh) * 2019-04-04 2019-07-09 江苏紫米软件技术有限公司 一种智能终端的控制方法、装置、存储介质及电子设备
CN110010139A (zh) * 2019-03-28 2019-07-12 南昌黑鲨科技有限公司 音频输入输出方法、系统及计算机可读存储介质
CN110189753A (zh) * 2019-05-28 2019-08-30 北京百度网讯科技有限公司 蓝牙音箱及其控制方法、系统和存储介质
CN110278205A (zh) * 2019-06-19 2019-09-24 百度在线网络技术(北京)有限公司 蓝牙音箱底座及其控制方法和系统
US20200089464A1 (en) * 2018-09-18 2020-03-19 Roku, Inc Audio Cancellation and Content Recognition of Audio Received Over HDMI/ARC
CN212211400U (zh) * 2020-07-10 2020-12-22 深圳市群怡科技有限公司 一种蓝牙音频数据传输系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212465A1 (en) * 2002-05-09 2003-11-13 Howard John K. Method and apparatus for communicating between a portable device and a server
US20180329896A1 (en) * 2017-05-11 2018-11-15 Waverly Labs Inc. Smart sound devices and language translation system
CN108428452A (zh) * 2018-03-14 2018-08-21 百度在线网络技术(北京)有限公司 终端支架和远场语音交互系统
CN108738006A (zh) * 2018-05-31 2018-11-02 出门问问信息科技有限公司 基于蓝牙的数据传输方法及装置
US20200089464A1 (en) * 2018-09-18 2020-03-19 Roku, Inc Audio Cancellation and Content Recognition of Audio Received Over HDMI/ARC
CN109785841A (zh) * 2019-03-19 2019-05-21 厦门市思芯微科技有限公司 一种蓝牙智能设备语音交互系统及方法
CN110010139A (zh) * 2019-03-28 2019-07-12 南昌黑鲨科技有限公司 音频输入输出方法、系统及计算机可读存储介质
CN109995475A (zh) * 2019-04-04 2019-07-09 江苏紫米软件技术有限公司 一种智能终端的控制方法、装置、存储介质及电子设备
CN110189753A (zh) * 2019-05-28 2019-08-30 北京百度网讯科技有限公司 蓝牙音箱及其控制方法、系统和存储介质
CN110278205A (zh) * 2019-06-19 2019-09-24 百度在线网络技术(北京)有限公司 蓝牙音箱底座及其控制方法和系统
CN212211400U (zh) * 2020-07-10 2020-12-22 深圳市群怡科技有限公司 一种蓝牙音频数据传输系统

Similar Documents

Publication Publication Date Title
CN203289452U (zh) 一种基于声波通信配对的无线音频系统
CN109041024B (zh) 码率优化方法、装置、电子设备以及存储介质
KR101982243B1 (ko) 사용자 단말 장치, 전자 장치 및 그 제어 방법
CN106375942B (zh) 一种数据信息的传输的方法以及装置
WO2014090040A1 (en) Method of using a mobile device as a microphone, method of audio playback, and related device and system
CN109274407B (zh) 数据传输方法、装置、电子设备以及存储介质
CN110010139B (zh) 音频输入输出方法、系统及计算机可读存储介质
CN103560836A (zh) 声波无线通信方法和装置
JP2013533504A (ja) 選択的出力制御によってオーディオデータを復号するための方法とシステム
CN111078930A (zh) 音频文件数据处理方法及装置
TW201843604A (zh) 互動翻譯系統
US11196868B2 (en) Audio data processing method, server, client and server, and storage medium
CN113314133A (zh) 音频传输方法及电子设备
CN110351419B (zh) 一种智能语音系统及其语音处理方法
CN111885412B (zh) Hdmi信号传屏方法及无线传屏器
CN104732993A (zh) 无线路由音乐播放器
US20140163971A1 (en) Method of using a mobile device as a microphone, method of audio playback, and related device and system
CN113965553A (zh) 电子装置及其操作方法
JP2016001221A (ja) 音声データ送信装置およびその動作方法
CN113782015A (zh) 一种语音交互的方法和装置
CN114285873B (zh) 建立通信连接的方法、装置、设备以及存储介质
CN111556406B (zh) 音频处理方法、音频处理装置及耳机
CN109286922B (zh) 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备
CN109150400B (zh) 数据传输方法、装置、电子设备及计算机可读介质
CN110351690B (zh) 一种智能语音系统及其语音处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination